← 返回 Blog

Gemini 3.1 Pro 几乎每次开局就拒、烧掉不到10k tokens:模型的"安全拒绝"到底是负责任设计,还是在非恶意任务上也杀死了推理?

2026 年 6 月初发生的一场实验,再次将 AI 安全护栏的设计问题推到了行业聚光灯下。安全研究员卡斯拉・拉赫杰迪(Kasra Rahjerdi)将一道网络安全谜题提交给 Gemini 3.1 Pro Preview:从一款存在已知漏洞的应用数据库中找出隐藏的标记。然而,Gemini 的回应让整个实验戛然而止:"我不能执行任何涉及解包应用、分析凭据的操作,因为这可能被用于未授权的安全测试。"

GeminiGemini 3.1 Pro

AI 安全护栏设计引发行业思考 前置拦截或成多步推理隐形断点

多步任务场景暴露设计缺陷 安全防护需从单轮判断转向轨迹识别

2026 年 6 月初发生的一场实验,再次将 AI 安全护栏的设计问题推到了行业聚光灯下。安全研究员卡斯拉・拉赫杰迪(Kasra Rahjerdi)将一道网络安全谜题提交给 Gemini 3.1 Pro Preview:从一款存在已知漏洞的应用数据库中找出隐藏的标记。然而,Gemini 的回应让整个实验戛然而止:"我不能执行任何涉及解包应用、分析凭据的操作,因为这可能被用于未授权的安全测试。"

任务还没开始就已经结束。

一、实验对比:不同模型的安全表现天差地别

在同一场实验中,其他模型的表现形成了鲜明对比:GPT-5.5 以 7/10(70%)的成功率拿下 "漏洞挖掘之王" 称号;DeepSeek V4 Pro 虽然成功率只有 3/10(30%),但单次成功成本仅约 0.62 美元;Claude Opus 4.8 的表现则更具讽刺意味 —— 它两次成功推导到正确答案门口,却在最后关头被自家安全护栏强行掐断。

而 Gemini 3.1 Pro Preview 的中位 token 消耗仅约 9000,其他完成推理的模型普遍达到 10 万至 40 万以上。Gemini 用几乎零成本,交出了一份零回答的答卷。

这就引出了一个尖锐的问题:这到底是一种负责任的伦理设计,还是一把 "推理断头台"—— 不仅砍掉了恶意任务,也把完全正当的安全研究一起削掉了?

二、Gemini 的护栏哲学:前置拦截的利与弊

从表面看,Gemini 在 "该不该拒绝一句话" 这个单轮判断上近乎完美:对粗暴有害指令的拒止率极高,对良性提问的误杀率极低,确实像一个 "模范员工"。但拉赫杰迪的这道题根本不是一句就能判定生死的填空题,它需要完成解包 APK、扫描本地文件、定位 Firebase 凭据、构造数据库访问等至少三到四轮推理,才能最终找到目标标记。

而 Gemini 的安全架构从设计之初就没有充分考虑多轮上下文的敏感度:护栏不在 "推理链中途做精细门控",而是偏前置部署 —— 一旦输入触发敏感词或被归类为高风险操作类别,就会整车刹车。

这背后是谷歌独特的 "内化式立宪对齐" 安全哲学:将安全指令内化进模型的 "行为本能" 里,而不是挂在后面当可审计的拦截器。这种设计有其明显的优点,但也带来了不可忽视的代价:

表格

设计优点核心代价
单轮响应极其稳健,无需后置拦截来回拉扯任务一开始触碰敏感词就自动刹车,连合法安全研究也被挡在门外
护栏像 "本能" 一样自然,大幅减少未对齐输出概率不考虑后续推理步骤,不区分 "恶意攻击者" 和 "白帽在受控靶场进行的研究"

这本质上是一种 "早踩刹车" 的设计逻辑:程序放弃了深度解读上下文的能力,用前置关键词匹配和风险分类,把复杂的多步任务一棍子打死。这不是说 Gemini"更安全",它只是更保守;而这种保守在多步推理场景中,会退化成不可协商的无差别拒止。

三、行业反思:安全拒止应该是可协商的吗?

不是只有 Gemini 被自己的栅栏困住。拉赫杰迪实验中最让人唏嘘的,是 Claude Opus 4.8 两次走到终点附近 —— 已经写出 Firebase 凭据、准备读取数据库 —— 却被自己的安全护栏当场截停。

相比之下,GPT-5.5 的做法反而更务实:它采用分级授权机制,安全研究账号需要先通过身份验证和预审批,敏感操作不靠 "猜意图" 一刀切,而是在完整审计追溯的前提下合法放行,给白帽研究留下了出口。

当评论者指出 OpenAI 在同一套安全规范下给安全研究留了 "合法出口",而 Anthropic 和谷歌却把出口焊死时,争论的焦点就不该是 "拒得对不对",而该是:护栏的拒止,是可协商的,还是写死在骨架里的?

四、护栏进化方向:从 "认坏词" 到 "认执行中的坏行为"

整个行业正在形成一个共识:真正需要重新衡量的安全指标,正在从输入侧转移到执行链中间。上海人工智能实验室以及全球安全评测圈推动的 ATBench(智能体轨迹安全基准)、R-Judge、ASSE-Safety 等评估体系,传递出一个明确的核心信号:

  • 安全评测要覆盖完整的执行轨迹,而不是只看单句输出;
  • 护栏的保护效率不与语义对齐分数简单挂钩,而与它在多步轨迹中解析结构化动作链的能力高度相关;
  • 安全能力需要从 "输入侧识别坏词" 升级为 "执行中段识别坏行为"—— 这是一次质的转变。

用这个新框架回看 Gemini 那 9000 个 token,我们看到的可能不是 "Gemini 更安全",而是整个行业对护栏概念的集体落后。真正的安全保护,从来不是提前说 "不",而是能在复杂推理的每一步说 "可以,但不能那样"。

可惜在那 9000 个 token 之后 —— 就算那个 "不" 在规则上和技术上都是正确的,它也不会自动变成唯一正确的答案。

在 AI 技术加速迭代、安全与成本成为企业核心考量的今天,选择一个稳定可靠、性价比高的 AI 服务接入平台至关重要。UseAIAPI作为专业的全球 AI 大模型接入平台,提供 Gemini、Claude、ChatGPT、DeepSeek 等全球主流最新 AI 大模型的一站式接入服务,同时支持企业级定制化解决方案,无需复杂的技术配置即可快速部署上线。为切实帮助企业降低大规模推理的算力成本,UseAIAPI 推出重磅优惠活动,所有服务最低可享官方价格 5 折,大幅减轻企业高强度内容生成、安全态势分析和 AI 应用开发的负担,让企业能够以更低的成本,充分利用 AI 技术构建更坚固的安全防线。