Anthropic 隐藏 Mythos 5 两月背后：AI 能力边界与安全治理的深层博弈

2026 年 4 月，Anthropic 做出了一件连 OpenAI 都未曾尝试的事：公开承认其最强大的模型因安全风险过高，无法向公众开放。当时，Anthropic 仅将 Claude Mythos Preview 提供给数十家网络安全合作伙伴，理由是这类模型已具备自主发现并利用关键软件漏洞的能力，一旦落入攻击者手中，将对现实世界造成不可估量的伤害。

两个月后，Mythos 5 与 Fable 5 终于同步亮相。两者基于完全相同的底层模型，却走向了截然不同的命运：一个加装了严密的安全护栏面向公众发售，另一个则卸掉所有限制，仅向 40 家核心防御伙伴开放。名字本身早已暗藏玄机 ——Fable（寓言）源自拉丁语，是讲给大众听的故事，结尾总带着训诫；Mythos（神话）源自希腊语，保留着原始而禁忌的力量。

一、封存两月：不是营销节奏，而是核材料级别的安全考量

梳理时间线便能清晰看到 Anthropic 的谨慎绝非小题大做。今年 4 月，Mythos 级模型在内部测试中交出了一份令全球安全界脊背发凉的报告：它在 Mozilla Firefox 浏览器中一次性定位出 271 个安全漏洞，涵盖跨站脚本、内存泄漏、权限提升等多个高危类型，覆盖面之广前所未有。作为对比，2025 年全年 Firefox 官方仅修复了 31 个漏洞，Mythos 一次发现的数量相当于其全年修复总量的近 9 倍。

更令人震惊的测试结果来自英国人工智能安全研究所（UK AISI）：Mythos 能够自主执行复杂的网络操作，包括对大型企业网络的多阶段攻击模拟，整个过程无需任何人工介入。专业渗透测试师需要数天才能拼凑完成的攻击链，Mythos 以 "自动驾驶" 的方式自行走通了全程。

面对如此强大的能力，Anthropic 选择了像封存核材料一样封存这个模型。它通过 "玻璃翼计划"（Project Glasswing），将受控访问权仅开放给约 40 余家关键防御伙伴，包括 AWS、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、微软、英伟达、Palo Alto Networks、Linux 基金会等 12 家创始成员，以及多个关键基础设施组织。为支持这项计划，Anthropic 配套提供了最高 1 亿美元的用量信用额度，并捐赠 400 万美元用于开源安全建设。整整两个月后，它才带着一套全新设计的安全护栏，重新回到公众视野。

二、安全护栏的创新："智能降级" 比 "直接拒绝" 更科学

Fable 5 的安全护栏设计，是此次发布中最具工程智慧的细节。

绝大多数 AI 系统的安全机制采用 "直接拒绝" 模式 —— 当用户提出敏感问题时，系统会回复 "抱歉，我无法提供帮助"。而 Fable 5 开创了一种全新的思路：安全不是教 AI 说 "不"，而是在危险时刻自动切换到更安全的模型。

具体而言，Fable 5 背后运行着一组独立的安全分类器，重点监控三个高危领域：

网络安全：漏洞利用链构造、进攻性网络任务、侦察与横向移动相关的完整攻击面
生物与化学安全：高风险生化武器合成路径、危险物质相关的非正当研究
模型知识产权保护：试图窃取 Fable 能力用于训练竞品模型的蒸馏行为

一旦用户请求命中分类器，Fable 5 不会强行应答，而是会悄无声息地将请求转交给 Claude Opus 4.8 处理，并明确告知用户 "本次请求已触发安全降级"。

根据 Anthropic 披露的数据，在超过 1000 小时的外部红队测试中，研究人员未能找到能够绕过这套护栏的 "通用越狱" 方法（英国 AISI 曾在有限窗口内取得初步进展）。Fable 5 对目前已知的 30 种公开越狱技术完全免疫，有害单轮请求的响应率为零。同时官方也坦诚，当前分类器的阈值设置偏严，部分从事病毒研究的生物学家、进行合法渗透测试的安全工程师，可能会在正常工作中遭遇不必要的降级。

值得注意的是，超过 95% 的日常对话会话根本不会触发安全降级。这意味着，在绝大多数使用场景中，用户手中的 Fable 5 与合作伙伴那里的 Mythos 5 体验几乎没有差别 —— 但那 5% 的边界，恰恰定义了 AI 能力的安全红线。

三、无护栏的 "神话"：究竟交付给了谁？

目前，Mythos 5 仅通过 "玻璃翼计划" 开放给约 200 家经过严格审核的机构（最初约 50 家创始及基础设施伙伴，6 月初新增约 150 家）。覆盖对象包括参与美国关键基础设施保护的网络防御者、特定领域的生命科学研究者，以及电力、水务、通信、医疗、硬件制造等行业的底层代码库供应商，分布在全球 15 个以上国家。这些机构中任何一家遭受大规模网络攻击，影响范围都可能超过 1 亿人。

Mythos 5 的防御能力已经得到了实战验证：

在 OpenBSD 系统中发现了一个隐藏了 27 年的整数溢出漏洞，该漏洞可导致远程机器崩溃，发现成本不到 2 万美元
在 FFmpeg 中找到了一个存在 16 年的 H.264 相关缺陷，自动化模糊测试工具触发过 500 万次都未能识别
在 Firefox 测试中，Mythos 产出了 181 个可用的漏洞利用程序，另有 29 个实现了寄存器控制；而前一代 Opus 4.6 在数百次尝试中仅勉强成功 2 次

但 Mythos 5 并非无所不能。有报道显示，一家名为 Depthfirst 的初创公司在 5 月份使用优化后的安全任务管线，以约 1000 美元的成本，在 Mythos 反复扫描过的 FFmpeg 代码库中又挖出了 12 个内存损坏漏洞，而 Mythos 完成同等扫描的成本约为 1 万美元。这表明，网络安全领域的竞争焦点，已经从 "能不能找到漏洞" 转向了 "花多少钱找到漏洞"。

四、能力与安全的平衡：走在钢丝上的 AI 进化

Fable 5 在 SWE-Bench Pro 测试中取得 80.3% 的高分，在 FrontierCode Diamond 测试中以 29.3% 的成绩领先 GPT-5.5 五倍多。但这些常规编程指标，并不是区分 "寓言" 与 "神话" 的根本标准。真正的分水岭在于，安全分类器可以将模型的高危能力彻底封死。

Anthropic 在系统卡中明确写道：Fable 5 和 Mythos 5 的性能对比，仅在未触发安全分类器的区域有效；一旦涉及敏感内容，Fable 5 的性能会直接回落到 Opus 4.8 的水平。

这意味着，用户购买的虽然是 Mythos 级别的底层模型，但在最危险的应用场景中，系统会自动 "拔掉插头"，切换到次强模型进行响应。Anthropic 承认这套机制存在误伤，但官方的底线逻辑十分清晰：我们的目标不是彻底消灭越狱（这在技术上不可能实现），而是让任何漏洞利用行为变得 "足够慢、足够贵"，无法进行大规模低成本扩散。

对于广大开发者和企业用户而言，无论是体验 Fable 5 带来的编程生产力革命，还是探索前沿 AI 模型的多元应用场景，稳定可靠、高性价比的接入渠道都是不可或缺的。UseAIAPI作为专业的全球 AI 大模型接入平台，全面覆盖包括最新发布的 Claude Fable 5、Gemini 全系列、ChatGPT 全系列、DeepSeek 在内的全球热门 AI 大模型，提供一站式无缝接入服务，无需复杂配置即可快速上手使用。平台同时支持企业级定制化服务，可根据不同行业、不同规模的业务需求量身打造专属解决方案。在成本方面，UseAIAPI 长期为用户提供极具竞争力的优惠政策，最低可达官方价格的 50%，能够大幅降低高强度开发、连续任务运行以及大规模内容生成带来的成本压力，让更多用户能够轻松享受到前沿 AI 技术带来的价值。

五、行业深层变革：AI 公司角色的重新定义

一个更深刻的转变正在全球 AI 行业发生：AI 公司不再仅仅是单纯的 "模型供应商"，它们同时正在扮演网络安全防御组织、零日漏洞挖掘实验室、关键基础设施保护联盟枢纽的多重角色。Mythos 系列本质上是一次 "强到不能公开发布" 的 AI 商业化试探，它很可能成为下一代 AI 安全治理新范式的样本。

在 AI 能力爆炸式增长与全球安全治理刚需之间划定那条清晰的分界线 ——Anthropic 这步棋的长远意义，或许远比 "编程之王易主" 本身更为深远。

因为排行榜上的王冠终究只是装饰品。真正值得整个行业思考的，从来不是谁站在技术的顶峰，而是当技术拥有了足以改变世界的力量时，我们应该如何用理性和责任，为它套上合适的缰绳。