← 返回 Blog

Opus 4.7 刷到 SWE-bench 87.6%,把 GPT-5.4 压在身下——但有个暗线叫 Mythos

作为一名专注于深度技术评估的行业观察者,我通读了 Claude Opus 4.7 发布以来几乎所有相关报道。在铺天盖地的标题党和公关稿中,我挖到了一条几乎被所有人忽略的关键暗线 ——Mythos。当我把这条线索拼凑完整时,不禁感到一丝寒意。

ClaudeClaude Opus 4.7

Claude Opus 4.7 背后的暗线:那个让 OpenAI 睡不着觉的 Mythos 模型

作为一名专注于深度技术评估的行业观察者,我通读了 Claude Opus 4.7 发布以来几乎所有相关报道。在铺天盖地的标题党和公关稿中,我挖到了一条几乎被所有人忽略的关键暗线 ——Mythos。当我把这条线索拼凑完整时,不禁感到一丝寒意。

一、87.6% 碾压 GPT-5.4 的背后:最强公开模型并非它的真王牌

2026 年 4 月 16 日晚,Anthropic 正式发布 Claude Opus 4.7,距离上一代 Opus 4.6 仅相隔两个多月。整个行业都在为它的跑分狂欢:

表格

基准测试Opus 4.6Opus 4.7涨幅
SWE-bench Verified80.8%87.6%+6.8pp
SWE-bench Pro53.4%64.3%+10.9pp
CursorBench58%70%+12pp

同期发布的 GPT-5.4 在同一项 SWE-bench Verified 测试中仅获得 57.7% 的成绩。这意味着,在接近真实生产环境的复杂编程任务中,Opus 4.7 能够独立修复近 90% 的 GitHub 真实缺陷,领先 GPT-5.4 近 30 个百分点。其视觉能力也同步实现了质的飞跃 —— 安全测试工具 XBOW 的视觉识别准确率从 4.6 版本的 54.5% 飙升至 98.5%,提升了近三倍。

但这次发布的语气却异常反常。

Anthropic 在官方公告中罕见地写下了一句近乎自曝的话:"Opus 4.7 的能力实际上不如我们内部未公开的模型 ——Claude Mythos。"

而被多数媒体忽略的另一个关键细节是:Opus 4.7 在长上下文基准 MRCR v2 @ 1M 上的得分,从 4.6 版本的 78.3% 骤降至 32.2%,一口气下跌了 46 个百分点。这表明它根本不是什么 "最强模型的全面释放",而是一次目标明确、取舍清晰的精密切刀式迭代:将编程能力、指令遵循能力和视觉能力推至公开可用的极限,同时在其他方面主动收力。

这才是真正值得玩味的地方:Mythos 到底是什么?Opus 4.7 甘愿为它让路,又预示着什么?

二、Mythos:让 OpenAI 和全球网络安全界彻夜难眠的存在

Claude Mythos,内部代号 "Capybara"(水豚),最早并非通过官方发布会曝光,而是源于一场人为失误导致的数据泄露事件。

2026 年 3 月下旬,Anthropic 的内容管理系统因配置错误,将近 3000 份未发布的内部资产(包括草稿博客、内部技术文档)设为了公开可搜索状态。网络安全研究员最先发现了这批资料,《财富》杂志跟进核实并进行了报道。尽管 Anthropic 迅速关闭了公开访问权限,但草稿中的核心内容已经被完整保存下来。

在泄露的草稿中,Anthropic 用 "质的飞跃" 四个字来形容 Mythos,明确指出它是 Opus 级别之上全新开辟的第四层级模型,运行成本更高、定价更贵,是 "迄今为止我们造出的最强模型"。

但真正震动整个行业的不是跑分数据,而是草稿中那段关于网络安全能力的警告:

"该模型在网络安全能力方面远远领先于任何其他 AI 模型…… 它预示着一个新时代的到来:AI 驱动的漏洞利用浪潮的发展速度,将远超防御方的应对速度。"

泄露信息显示,Mythos 在短短几周内自主发现了数千个零日漏洞,其中包括一个潜藏在 FreeBSD 操作系统中长达 17 年的远程代码执行漏洞 —— 从发现漏洞到写出完整可用的漏洞利用代码,全程没有任何人类干预。

这也解释了为什么 Opus 4.7 公开发布时,Anthropic 做出了一件史无前例的事:第一次基于 "身份验证和用途审查" 而非单纯的订阅等级来限制模型能力。Opus 4.7 的网络安全相关功能被刻意做了大幅削减,安全研究人员需要单独提交申请并通过严格审核,才能解锁完整版本。

说白了:他们不是做不出更强的公开版,而是不敢。

三、Mythos 的核心架构:循环深度 Transformer(RDT)

外界目前能够拼凑出的 Mythos 核心,远不止 "参数更大" 这么简单。

2026 年 4 月,开源项目 OpenMythos 基于第一性原理和 Anthropic 官方流露的行为痕迹,反向推导出一个高度自洽的架构假设 —— 循环深度 Transformer(Recurrent Depth Transformer, RDT):

表格

特性传统 TransformerRDT(Mythos 推测核心)
每层计算次数每层恰好一次核心计算块在单次前向传播中循环执行最多 16 次,权重共享
思考深度由网络层数硬性决定随任务复杂度自适应伸缩,推理深度与网络层数完全解耦
计算发生位置显式 token 输出阶段大量 "沉默思考" 发生在潜空间(latent space)

其整体结构分为三个阶段:

  1. Prelude(序曲):标准 Transformer 层,负责初始编码
  2. Recurrent Block(循环核心):同一组权重循环执行 T 次(≤16)

    • 每轮注入线性时不变(LTI)约束,防止潜状态漂移
    • FFN 层替换为混合专家模型(MoE),每轮路由不同

  3. Coda(终章):标准 Transformer 层,负责最终输出解码

Mythos 在 SWE-bench Verified 测试中跑出的 93.9% 高分(比 Opus 4.6 高出 13 个百分点),很可能正是这种 "推理深度可伸缩 + 潜空间迭代精修" 架构的直接产物。

Anthropic 显然也对这个模型的能力感到敬畏,因此在推向公开市场时实施了极其严格的安全分层策略:

表格

公开产品线目标受众安全策略
Claude Fable 5普通付费用户遇到高风险安全请求自动回退到 Opus 4.8 级响应
Claude Mythos 5仅 "可信合作伙伴"能力范围严格限定在网络安全防御侧

两者基于完全相同的底层模型,唯一的区别在于安全策略的松紧程度。

四、理清时间线:Anthropic 的布局远比想象中深远

将过去三个月的关键节点串联起来,整幅图景的意图就变得异常清晰:

表格

时间事件
2026 年 3 月下旬Anthropic CMS 配置失误,约 3000 份内部文件意外公开,Mythos/Capybara 代号首次曝光
3 月 28 日前后《财富》杂志报道引发行业震动;Anthropic 官方确认 Mythos 存在,称其为 "阶梯式变革"
4 月 7 日Mythos 预览版以 "Project Glasswing" 名义,向 12 家全球科技巨头封闭开放(仅限网络安全防御用途)
4 月 16 日Opus 4.7 公开发布;Anthropic 罕见承认 "Opus 4.7 不如 Mythos";Opus 4.7 网安能力被刻意削减
4 月中旬–5 月Mythos 在 SWE-bench Verified 测试中达到 93.9%;在 CyberGym 网安测试中达到 83.1%(Opus 4.6 为 66.6%);Glasswing 参与机构扩展至约 150 家、覆盖 15 个国家
6 月 9 日Mythos 分级公开:Fable 5 对普通公众开放(内置安全自动回滚机制),Mythos 5 仅向可信合作伙伴开放

回头来看,Opus 4.7 释放出的真正信号根本不是 "Claude 又赢了",而是:

Anthropic 正在拼命为 Mythos 的安全部署争取时间。他们把 Opus 4.7 打造成了一座 "安全岛"—— 能力成熟、成本可控、不会引发重大安全争议 —— 用它来为更激进、更强大的 Mythos 做掩护和过渡。

五、未来的走向:我们敢把什么样的 AI 放进生产环境?

在泄露的代码中,已经出现了两个更激进的项目代号 ——Kairos(常驻在线守护进程模式)和 Ultraplan(可进行长达 30 分钟复杂推理的规划器)—— 这两项能力都没有出现在 Opus 4.7 中。

你可以想象一下:"持续在线"×"半小时级长推理"×RDT 的 16 层循环思考,会产生什么样的能力?

我已经不再关心哪个模型的跑分更高了。未来 AI 能力的真正瓶颈,可能根本不是算力或参数,而是 —— 我们敢把什么样的 AI 放进生产环境,以及拴住它的链子够不够坚固。

想要第一时间体验 Claude Opus 4.7 的强大能力,以及 Gemini、GPT、DeepSeek 等全球主流 AI 大模型的最新特性?UseAIAPI为广大企业和开发者提供一站式稳定接入服务。平台全面覆盖全球热门 AI 大模型 API 接口,无需繁琐配置即可快速上手,同时还可根据企业个性化需求提供定制化解决方案,全程保障服务的稳定性与安全性。

在成本方面,UseAIAPI 推出了极具竞争力的专属优惠政策,所有模型 API 调用最低可享官方价格 5 折优惠,大幅降低企业在高强度内容生成、复杂编码任务、多 Agent 系统开发等场景下的算力成本,让你无需为高昂的 AI 使用费用担忧,能够全身心投入到核心业务创新中。