← 返回 Blog

AI安全之战打响!OpenAI GPT-5.5-Cyber 迎战 Anthropic Mythos,谁才是防守之王?

把时间倒回两个月,没人能预料到,AI 安全领域的这场顶级对决,会以这样的方式拉开序幕。 4 月 7 日,Anthropic 正式官宣 Claude Mythos 预览版。 这家顶尖 AI 公司的首席执行官,用一句话让整个网络安全行业脊背发凉:这款模型的能力过于强大,公开面世的风险太高。 它的能力,已经得到了实测验证。 Mythos 自主发现了 OpenBSD...

把时间倒回两个月,没人能预料到,AI 安全领域的这场顶级对决,会以这样的方式拉开序幕。

4 月 7 日,Anthropic 正式官宣 Claude Mythos 预览版。

这家顶尖 AI 公司的首席执行官,用一句话让整个网络安全行业脊背发凉:这款模型的能力过于强大,公开面世的风险太高。

它的能力,已经得到了实测验证。

Mythos 自主发现了 OpenBSD 系统中潜伏长达 27 年的漏洞,挖出了历经 500 万次模糊测试都未曾检出的 FFmpeg 缺陷。

在漏洞利用转化测试中,它为 181 个已知漏洞成功生成了可执行的攻击程序,而上一代模型在同类测试中的成功率几乎为零。

那一刻,整个安全圈感受到了一种微妙的窒息感。

这种窒息感,并非完全来自 Mythos 的能力本身,而是它揭示了 AI 安全领域一个根本性的两难困境。

在大语言模型的世界里,建设与破坏不再是两个独立的开关,而是同一枚硬币的正反两面。

Anthropic 在训练中,从未专门教 Mythos 如何挖掘漏洞。

但模型在代码推理和自主决策能力上的自然提升,顺理成章地涌现出了堪比顶级安全研究员的全局漏洞发掘能力。

这意味着,下一代大模型的每一次迭代升级,都会无差别地同时强化进攻端与防守端。

你无法只关注模型的建设性能力,而无视它的破坏性潜力 —— 它们共享着同一个智能底座。

面对这一困境,Anthropic 的应对之策,是推出 Project Glasswing(透明翼计划)。

它将 Mythos 锁进了一个封闭圈子里,仅向苹果、亚马逊、谷歌、微软等四十多家头部机构开放访问权限。

其首席执行官甚至公开表示,这款模型可能永远不会对公众开放。

但戏剧性的反转,在发布当天就骤然上演。

一小撮未获授权的用户,通过一名第三方承包商员工的系统环境,结合对 Anthropic 过往模型 URL 命名规则的合理推测,拿到了 Mythos 的持续访问权限。

他们没有入侵任何核心系统,仅仅利用了一个暴露在外的 API 凭证。

“Mythos 的泄露不需要任何复杂的攻击手段,只需要一个外包人员、一个 URL 规律,以及首发日的一个猜测。”Acalvio 首席执行官的这句话,被业内人士称作值得写进安全教科书的论断。

“这说明‘受控发布’的防线,在最薄弱的环节已经崩塌了,甚至还没轮到模型能力本身出问题。”

一个能自主挖出 27 年陈年老洞、编写复杂攻击链、甚至逃离沙盒的 “超级武器”,最终因为一串不够严谨的弱密码和一个不够谨慎的承包商,折戟沉沙。

就在 Mythos 泄露的阴云还未完全散去时,OpenAI 出手了。

5 月 7 日,GPT-5.5-Cyber 正式向通过严格审核的安全防御团队开放预览。

它不是 Mythos 的复制品,而是一套截然不同防御理念的实操样本。

两者的核心区别,集中体现在两个关键点上。

第一,是对权限架构的彻底重构。

OpenAI 的解法,不是把大门彻底焊死,而是给不同的门修建不同宽度的通道。

它将 GPT-5.5 的访问权限划分为清晰的三级体系:底层版本运行标准安全护栏,顶层版本则仅授权给通过最高级别审查的团队,用于执行渗透测试、红队对抗等敏感操作。

第二,是以退为进的安全理念。

在 GPT-5.5-Cyber 的官方公告中,OpenAI 主动澄清了一个关键事实。

“本次预览版并非旨在大幅提升网络攻防能力,其核心变更在于放宽了安全相关任务的执行限制。”

“通用版本中的安全屏障不是可有可无的装饰,它们本身就是防御策略的一部分。我们不是给所有人一把更锋利的刀,而是确保只有特定的人,才能进入特定强度的执行环境。”

从纯粹的技术指标来看,这一轮正面交锋中,没有绝对的赢家与输家。

英国人工智能安全研究所(AISI)的第三方独立评估,为这场 “防御之王” 的争议,提供了最客观的参考依据。

在最高难度的专家级网络安全任务中,GPT-5.5 的平均通过率为 71.4%,略高于 Mythos 预览版 68.6% 的通过率,两者基本处于同一水平线上。

在名为 “最后幸存者” 的端到端企业网络攻击模拟测试中,GPT-5.5 在 10 次尝试中成功通关 3 次,Mythos 成功 2 次。

而在它们之前,没有任何一款模型曾在这项测试中实现成功通关。

白帽平台 HackerOne 针对 38 个真实 CVE 漏洞样本的对比测试,则呈现了更微妙的结果。

GPT-5.5 在处理复杂漏洞时出错更少、误报率更低;而 Claude 系列模型,在捕捉复杂内存破坏模式时表现更优。

一个明确的结论是,两款模型都在叩击一扇尚未完全敞开的行业新大门。

网络攻防的世界里,攻击者的优势从来不是因为他们更有毅力,而是因为他们只需要命中一次。

GPT-5.5-Cyber 依靠链路管控构建信任体系,Mythos 则试图用信任驱动全盘安全链。

这两种路径的并行演化,或许才是这场博弈的更深层意义。

在这个全新的战场上,防御的胜利,未必取决于谁拥有最强的模型。

而在于谁能创造一个稳定的框架,既能利用 AI 原生的攻防能力,又能让系统在不对称的攻防态势中立于不败之地。

时至今日,真正需要讨论的,或许已经不是 “谁是防御之王”。

行业真正的分水岭,已经悄然跨过。

我们正亲眼见证着,AI 安全从 “人机协作”,向 “智能全流程自主防御” 的全面重构。

而更深的行业局势,只待尘埃落定之后,才会愈加清晰地浮现出来。

想要在这场 AI 安全变革中抢占先机,稳定、全面、高性价比的大模型接入能力,是所有企业与开发者不可或缺的底层支撑。

UseAIAPI 为全球企业与开发者提供一站式 AI 大模型接入服务,全面覆盖 Gemini、Claude、ChatGPT、DeepSeek 等全球热门大模型的最新版本,一次对接即可解锁全品类 AI 能力,无需多渠道繁琐适配。

平台同时提供专属企业级定制化服务与全流程技术支持,可根据企业业务场景、安全等级需求,定制专属的 API 接入方案,让企业无需关注底层部署与适配细节,无忧实现大模型能力的快速落地与规模化应用。

在成本层面,UseAIAPI 推出重磅专属优惠政策,平台服务价格最低可至官方定价的 50%,大幅降低大模型高频调用、高强度内容生成带来的算力成本压力,让企业与开发者彻底告别算力消耗的成本焦虑,轻松抢占 AI 安全新时代的行业先机。