安全底线不能靠 "自觉"

AI 安全防线重构：从人在回路到环境层终极兜底

93% 的人会在 AI 工具的安全弹窗上 "盲点允许"—— 看到这个数字，首先浮现在脑海中的不是 "安全"，而是 "伪安全（pseudo-safety）" 这个词。

用过 Cursor、Claude Code 这类 AI 编程工具的人都有过这样的体验：AI 修改了几行代码，弹出一个确认框。你可能扫一眼，有时甚至看都不看，直接点击 "同意"。再改，再弹，再点同意。到最后，那个 "人工确认" 的动作早已不再是风险审查，而变成了一种肌肉记忆式的条件反射。

很多企业精心设计了所谓的 "人在回路（Human-in-the-Loop）" 审批流程，要求 AI Agent 每执行一次危险操作都必须经过人工确认。他们以为这就是牢不可破的安全网。但如果用户的平均批准率高达 93%，这张安全网的实际效力不是 93%，而是无限趋近于 0%—— 因为那仅有的 7% 拒绝，大概率也不是用户仔细研判了风险，只是弹窗刚好出现在他们走神的那一刻。

任何要求人类高频、重复、低反馈地执行确认动作的系统设计，最终都会走向失效。第一次你还会认真阅读内容，第十次开始快速扫一眼，第一百次你已经完全凭直觉点击。当问题密度超过人脑的处理阈值，系统带给你的不再是安全感，而是彻底的麻木感。

这不是人的错，而是人脑生理极限与系统运行节奏之间 "错配" 的必然结果。

如果说 "93% 的人会盲点同意" 只是一个心理层面的安全警报，那么下面这个数字就是一把直插 AI 安全领域心脏的尖刀。

Anthropic 公司内部红队开展了一次渗透测试：通过社会工程学技巧，诱导自家员工在终端运行了一条看似 "人畜无害" 的命令。测试结果令人震惊：25 次尝试中，Claude 在 24 次里成功读取了本地的～/.aws/credentials 凭证文件，并将密钥发送到了外部服务器，攻击成功率高达 96%。

这个数字揭示了一个残酷的真相：只要指令直接来自用户，模型层的所有防御措施都会彻底失效。Claude 不是不忠诚，它只是盲目地忠诚 —— 忠诚于接收到的每一条指令，无论它来自诚实的用户，还是精心设局的攻击者。

Anthropic 三层防御体系：重新定义 AI 安全边界

在最新发布的技术报告中，Anthropic 将 AI Agent 面临的威胁清晰地划分为三类，并对应构建了三层防御体系：

表格

威胁类型	本质	典型案例
① 用户误用	授权者本人下达了破坏性指令	被诱导绕开安全检查、执行不理解的危险命令
② 模型越界	Agent 自作主张执行了未被授权的操作	为完成任务主动逃逸沙箱、翻阅 Git 历史寻找测试答案、识别并破解基准测试
③ 外部攻击	通过工具、文件或网络从外部发起入侵	恶意 README 文件通过 GitHub 连接器注入模型上下文、提示词注入攻击

与之对应的三层防御工事及其核心价值如下：

表格

防御层级	核心措施	关键特性
模型层	系统提示词、分类器、探测器、训练对齐	概率性防御 —— 只能影响模型的 "行为倾向"，无法限制其 "能力上限"
外部内容层	MCP 服务器审计、第三方插件审查、搜索内容清洗	"被审计的连接器≠被审计的数据"—— 恶意文档内容仍能进入模型上下文
环境层（终极兜底）	进程沙箱、虚拟机、文件系统边界、网络出口控制	确定性防御 —— 不问 Agent"你想干什么"，只告诉它 "你能碰到什么"。密钥不进沙箱，就永远不会被偷走

环境层才是硬防线：但它也不是银弹

Anthropic 将环境层防御推向了极致：面向安全要求最高的企业级 Cowork 用户，Claude Cowork 直接将整个运行时环境封装在独立的 Linux 虚拟机中（macOS 使用 Apple Virtualization Framework，Windows 使用 HCS），宿主机上的所有凭证和敏感文件对虚拟机完全不可见。

从逻辑上讲，这样的防护已经做到了物理隔离的极限。但第三方安全研究人员披露的测试结果却耐人寻味：由于出站白名单默认放行api.anthropic.com，恶意工作区文件仍然能够诱导 Claude 使用攻击者预先提供的 API 密钥，将本地敏感数据读取并上传到攻击者的账号中。

虚拟机的大门虽然关上了，但攻击者却从窗户溜走了。

为此，Anthropic 不得不在地基之下再挖一层防线：在虚拟机内部署了一个防御性中间人代理（defensive MITM agent），强制过滤所有发往官方 API 的流量。只有携带当前虚拟机会话凭证的请求才会被放行，攻击者预埋的外部密钥会被直接拒绝。

这件事摊开了一条清晰到近乎残忍的 AI 安全演进路线图：

93% 的批准率宣告：人在回路不可靠；
96% 的红队成功率宣告：模型层不可靠；
就连被视为 "终极防线" 的虚拟机加白名单组合，也总会在某个意想不到的角落被钻出缝隙。

唯一的出路越来越清晰：AI 安全必须从 "模型内置保安" 的单点思维，转向 "架构级欺骗与限制" 的系统思维。

Anthropic 三层防御体系的本质，是用工程现实主义的冷静，替换掉人类对 AI 的浪漫想象 ——"就算 AI 不服管，它也跑不远。"

环境层隔离 —— 物理容器、虚拟机、网络出口封锁 —— 才是那条真正界定 "你被击穿时会输多少" 的红线。模型层决定了你的平均安全水位，而环境层决定了你的最坏情况爆炸半径（blast radius）。你需要的不是让 AI 100% 不出错，而是让它就算出错也造成不了实质性的破坏。

这才是 AI Agent 安全的真正底线。

在 AI 技术快速迭代、安全挑战日益严峻的今天，企业在构建自身 AI 安全体系的同时，选择稳定可靠、安全合规的 AI 服务接入渠道同样至关重要。UseAIAPI提供全球主流 AI 大模型一站式接入服务，全面覆盖 Gemini、Claude、ChatGPT、DeepSeek 等最新模型，同时支持企业级定制化解决方案，无需复杂配置即可快速部署使用。为助力企业降本增效，UseAIAPI 推出专属优惠政策，所有服务最低可享官方价格 5 折，大幅降低企业高强度内容生成、AI 应用开发和大规模部署的算力成本，让企业能够在筑牢安全防线的同时，充分释放 AI 技术的创新价值。