
Anthropic 隐藏 Mythos 5 两月背后:AI 能力边界与安全治理的深层博弈
2026 年 4 月,Anthropic 做出了一件连 OpenAI 都未曾尝试的事:公开承认其最强大的模型因安全风险过高,无法向公众开放。当时,Anthropic 仅将 Claude Mythos Preview 提供给数十家网络安全合作伙伴,理由是这类模型已具备自主发现并利用关键软件漏洞的能力,一旦落入攻击者手中,将对现实世界造成不可估量的伤害。
两个月后,Mythos 5 与 Fable 5 终于同步亮相。两者基于完全相同的底层模型,却走向了截然不同的命运:一个加装了严密的安全护栏面向公众发售,另一个则卸掉所有限制,仅向 40 家核心防御伙伴开放。名字本身早已暗藏玄机 ——Fable(寓言)源自拉丁语,是讲给大众听的故事,结尾总带着训诫;Mythos(神话)源自希腊语,保留着原始而禁忌的力量。
一、封存两月:不是营销节奏,而是核材料级别的安全考量
梳理时间线便能清晰看到 Anthropic 的谨慎绝非小题大做。今年 4 月,Mythos 级模型在内部测试中交出了一份令全球安全界脊背发凉的报告:它在 Mozilla Firefox 浏览器中一次性定位出 271 个安全漏洞,涵盖跨站脚本、内存泄漏、权限提升等多个高危类型,覆盖面之广前所未有。作为对比,2025 年全年 Firefox 官方仅修复了 31 个漏洞,Mythos 一次发现的数量相当于其全年修复总量的近 9 倍。
更令人震惊的测试结果来自英国人工智能安全研究所(UK AISI):Mythos 能够自主执行复杂的网络操作,包括对大型企业网络的多阶段攻击模拟,整个过程无需任何人工介入。专业渗透测试师需要数天才能拼凑完成的攻击链,Mythos 以 "自动驾驶" 的方式自行走通了全程。
面对如此强大的能力,Anthropic 选择了像封存核材料一样封存这个模型。它通过 "玻璃翼计划"(Project Glasswing),将受控访问权仅开放给约 40 余家关键防御伙伴,包括 AWS、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、微软、英伟达、Palo Alto Networks、Linux 基金会等 12 家创始成员,以及多个关键基础设施组织。为支持这项计划,Anthropic 配套提供了最高 1 亿美元的用量信用额度,并捐赠 400 万美元用于开源安全建设。整整两个月后,它才带着一套全新设计的安全护栏,重新回到公众视野。
二、安全护栏的创新:"智能降级" 比 "直接拒绝" 更科学
Fable 5 的安全护栏设计,是此次发布中最具工程智慧的细节。
绝大多数 AI 系统的安全机制采用 "直接拒绝" 模式 —— 当用户提出敏感问题时,系统会回复 "抱歉,我无法提供帮助"。而 Fable 5 开创了一种全新的思路:安全不是教 AI 说 "不",而是在危险时刻自动切换到更安全的模型。
具体而言,Fable 5 背后运行着一组独立的安全分类器,重点监控三个高危领域:
- 网络安全:漏洞利用链构造、进攻性网络任务、侦察与横向移动相关的完整攻击面
- 生物与化学安全:高风险生化武器合成路径、危险物质相关的非正当研究
- 模型知识产权保护:试图窃取 Fable 能力用于训练竞品模型的蒸馏行为
一旦用户请求命中分类器,Fable 5 不会强行应答,而是会悄无声息地将请求转交给 Claude Opus 4.8 处理,并明确告知用户 "本次请求已触发安全降级"。
根据 Anthropic 披露的数据,在超过 1000 小时的外部红队测试中,研究人员未能找到能够绕过这套护栏的 "通用越狱" 方法(英国 AISI 曾在有限窗口内取得初步进展)。Fable 5 对目前已知的 30 种公开越狱技术完全免疫,有害单轮请求的响应率为零。同时官方也坦诚,当前分类器的阈值设置偏严,部分从事病毒研究的生物学家、进行合法渗透测试的安全工程师,可能会在正常工作中遭遇不必要的降级。
值得注意的是,超过 95% 的日常对话会话根本不会触发安全降级。这意味着,在绝大多数使用场景中,用户手中的 Fable 5 与合作伙伴那里的 Mythos 5 体验几乎没有差别 —— 但那 5% 的边界,恰恰定义了 AI 能力的安全红线。
三、无护栏的 "神话":究竟交付给了谁?
目前,Mythos 5 仅通过 "玻璃翼计划" 开放给约 200 家经过严格审核的机构(最初约 50 家创始及基础设施伙伴,6 月初新增约 150 家)。覆盖对象包括参与美国关键基础设施保护的网络防御者、特定领域的生命科学研究者,以及电力、水务、通信、医疗、硬件制造等行业的底层代码库供应商,分布在全球 15 个以上国家。这些机构中任何一家遭受大规模网络攻击,影响范围都可能超过 1 亿人。
Mythos 5 的防御能力已经得到了实战验证:
- 在 OpenBSD 系统中发现了一个隐藏了 27 年的整数溢出漏洞,该漏洞可导致远程机器崩溃,发现成本不到 2 万美元
- 在 FFmpeg 中找到了一个存在 16 年的 H.264 相关缺陷,自动化模糊测试工具触发过 500 万次都未能识别
- 在 Firefox 测试中,Mythos 产出了 181 个可用的漏洞利用程序,另有 29 个实现了寄存器控制;而前一代 Opus 4.6 在数百次尝试中仅勉强成功 2 次
但 Mythos 5 并非无所不能。有报道显示,一家名为 Depthfirst 的初创公司在 5 月份使用优化后的安全任务管线,以约 1000 美元的成本,在 Mythos 反复扫描过的 FFmpeg 代码库中又挖出了 12 个内存损坏漏洞,而 Mythos 完成同等扫描的成本约为 1 万美元。这表明,网络安全领域的竞争焦点,已经从 "能不能找到漏洞" 转向了 "花多少钱找到漏洞"。
四、能力与安全的平衡:走在钢丝上的 AI 进化
Fable 5 在 SWE-Bench Pro 测试中取得 80.3% 的高分,在 FrontierCode Diamond 测试中以 29.3% 的成绩领先 GPT-5.5 五倍多。但这些常规编程指标,并不是区分 "寓言" 与 "神话" 的根本标准。真正的分水岭在于,安全分类器可以将模型的高危能力彻底封死。
Anthropic 在系统卡中明确写道:Fable 5 和 Mythos 5 的性能对比,仅在未触发安全分类器的区域有效;一旦涉及敏感内容,Fable 5 的性能会直接回落到 Opus 4.8 的水平。
这意味着,用户购买的虽然是 Mythos 级别的底层模型,但在最危险的应用场景中,系统会自动 "拔掉插头",切换到次强模型进行响应。Anthropic 承认这套机制存在误伤,但官方的底线逻辑十分清晰:我们的目标不是彻底消灭越狱(这在技术上不可能实现),而是让任何漏洞利用行为变得 "足够慢、足够贵",无法进行大规模低成本扩散。
对于广大开发者和企业用户而言,无论是体验 Fable 5 带来的编程生产力革命,还是探索前沿 AI 模型的多元应用场景,稳定可靠、高性价比的接入渠道都是不可或缺的。UseAIAPI作为专业的全球 AI 大模型接入平台,全面覆盖包括最新发布的 Claude Fable 5、Gemini 全系列、ChatGPT 全系列、DeepSeek 在内的全球热门 AI 大模型,提供一站式无缝接入服务,无需复杂配置即可快速上手使用。平台同时支持企业级定制化服务,可根据不同行业、不同规模的业务需求量身打造专属解决方案。在成本方面,UseAIAPI 长期为用户提供极具竞争力的优惠政策,最低可达官方价格的 50%,能够大幅降低高强度开发、连续任务运行以及大规模内容生成带来的成本压力,让更多用户能够轻松享受到前沿 AI 技术带来的价值。
五、行业深层变革:AI 公司角色的重新定义
一个更深刻的转变正在全球 AI 行业发生:AI 公司不再仅仅是单纯的 "模型供应商",它们同时正在扮演网络安全防御组织、零日漏洞挖掘实验室、关键基础设施保护联盟枢纽的多重角色。Mythos 系列本质上是一次 "强到不能公开发布" 的 AI 商业化试探,它很可能成为下一代 AI 安全治理新范式的样本。
在 AI 能力爆炸式增长与全球安全治理刚需之间划定那条清晰的分界线 ——Anthropic 这步棋的长远意义,或许远比 "编程之王易主" 本身更为深远。
因为排行榜上的王冠终究只是装饰品。真正值得整个行业思考的,从来不是谁站在技术的顶峰,而是当技术拥有了足以改变世界的力量时,我们应该如何用理性和责任,为它套上合适的缰绳。