← 返回 Blog

ExploitGym 39.5% / SEC-bench Pro 69.8%:GPT-5.5-Cyber 三榜 SOTA,Anthropic 守不住安全赛道了?

2026 年以来,生成式 AI 在网络安全领域的应用持续深化,行业竞争的核心维度正悄然发生转变。6 月 22 日,OpenAI 宣布拓展其 Daybreak 网络安全计划,面向经过资质审核的安全防御团队正式开放 GPT-5.5-Cyber 完整版模型。此前,美国相关部门以国家安全顾虑与潜在技术外泄风险为由,对 Anthropic 旗下两款高端模型实施了出口限制。两大头部厂商的系列动态,折射出安全 AI 赛道的演进方向,也让行业目光再次聚焦于 AI 安全能力的实际落地价值。

OpenAIGPT-5.5-Cyber

安全 AI 竞争步入下半场 全链路修复能力成行业新赛道

2026 年以来,生成式 AI 在网络安全领域的应用持续深化,行业竞争的核心维度正悄然发生转变。6 月 22 日,OpenAI 宣布拓展其 Daybreak 网络安全计划,面向经过资质审核的安全防御团队正式开放 GPT-5.5-Cyber 完整版模型。此前,美国相关部门以国家安全顾虑与潜在技术外泄风险为由,对 Anthropic 旗下两款高端模型实施了出口限制。两大头部厂商的系列动态,折射出安全 AI 赛道的演进方向,也让行业目光再次聚焦于 AI 安全能力的实际落地价值。

三项核心评测领跑 专项能力实现全面突破

衡量安全 AI 的能力边界,行业通用的专业评测集是核心参考依据。GPT-5.5-Cyber 在三大主流安全评测中均取得领先成绩,覆盖漏洞复现、利用构造、长链挖掘三个核心维度。

CyberGym 是当前安全 AI 领域公认的高含金量评测集,其基于 188 个开源项目中的 1507 个真实世界漏洞构建,考核的并非简单的漏洞定位能力,而是 AI 智能体能否在真实软件环境中完整复现漏洞 —— 不仅要识别风险点,还要构造有效路径证明漏洞具备实际可利用性。

测试结果显示,GPT-5.5-Cyber 在该评测中取得 85.6% 的得分,为目前公开测试中的单模型最高成绩。作为对比,标准版 GPT-5.5 得分为 81.8%,Anthropic 旗下安全旗舰模型得分为 83.8%,Claude Opus 4.7 得分为 73.1%。看似不大的分数差距背后,对应的是真实漏洞复现成功率的实质提升,也标志着安全 AI 的能力上限被再次刷新。

另外两项专项评测则进一步验证了模型的细分能力:

  • ExploitGym 聚焦漏洞利用能力,考核模型能否将已知漏洞转化为可执行的攻击代码。GPT-5.5-Cyber 得分为 39.5%,较标准版的 25.95% 提升接近一倍,体现出模型在 “理解漏洞原理→构造利用路径” 环节的量级跃升。
  • SEC-bench Pro 考核长链漏洞挖掘能力,测试模型在复杂软件系统中持续追踪风险、生成概念验证代码的水平。GPT-5.5-Cyber 得分为 69.8%,同样高于标准版的 63.1%。

整体来看,从漏洞复现到利用构造,再到复杂场景下的长链挖掘,GPT-5.5-Cyber 在三大核心维度均实现了对通用大模型的全面超越,也跑赢了同赛道的竞品模型。

能力范式升级 从单点发现走向全链路修复

评测分数体现的是技术参数的突破,而更具行业价值的,是模型设计目标的根本性转向。OpenAI 方面明确表示,该模型的核心定位是帮助安全防守方完成从发现到修复的完整闭环,而非单纯提升漏洞发现的数量。

这一定位直击当前 AI 安全应用的核心痛点。过去数年,AI 在安全领域的应用主要集中在漏洞识别环节,自动化扫描工具大幅降低了漏洞发现的门槛。据公开数据,Codex Security 上线以来已累计扫描超 3000 万次代码提交,识别出 7 万余个经人工确认的安全问题。但漏洞发现与落地修复之间,隔着完整的工程落地流程:识别出的风险需要人工核验、排定优先级、编写修复补丁、完成测试验证。AI 发现漏洞的速度越快,维护团队的工作负担反而越重,大量误报与待处理报告形成了新的效率瓶颈。

GPT-5.5-Cyber 的能力覆盖恰好延伸至了修复环节。它可在大型代码库中开展深度安全分析、识别安全组件关联关系、追踪脆弱代码的可达路径、在可控环境中验证漏洞真实性,同时能够独立编写并测试修复补丁,输出可供人工复核的完整修复方案。OpenAI 相关负责人表示,Daybreak 计划的核心目标,是用新的工具与模型加速漏洞修复的全流程,而非仅仅提升漏洞发现的效率。这一转向,也标志着安全 AI 正式从 “发现问题” 的单一场景,迈向 “解决问题” 的全链路服务。

实战场景落地 开源安全治理效率获验证

技术能力的真实价值,最终需要在实战场景中检验。OpenAI 联合专业安全机构 Trail of Bits 发起的 “Patch the Planet” 计划,正是这套全链路能力的落地试验场。

该计划中,Trail of Bits 投入了大量资深安全工程师,依托 GPT-5.5-Cyber 与 Codex Security 工具,对 19 个全球核心开源基础设施项目开展安全治理,覆盖 cURL、Python、Go、PyPI 等支撑互联网运行的底层工具,涉及网络传输、编程语言、包管理等多个关键领域。

首周行动成果显示,团队累计识别出数百个安全风险,共提交 64 个代码合并请求,其中 37 个修复方案已被项目维护者正式合入代码主干。这批合入的方案并非简单的文本修正,而是包含漏洞修复、测试框架补充、持续集成安全扫描优化、供应链工具升级等工程级内容。从 “上报漏洞” 到 “交付可合入的修复方案”,这一转变直接减轻了开源维护者的事务性工作负担,也验证了 AI 参与完整修复流程的可行性。

截至目前,已有超过 30 个开源项目报名参与该计划,覆盖范围持续扩大。对于长期面临维护人力不足困境的开源生态而言,AI 深度参与修复全流程,正在成为破解安全治理人力瓶颈的新路径。

赛道格局分化 竞争进入全新阶段

单从安全 AI 的技术评测维度看,GPT-5.5-Cyber 已取得明显的领先优势。但拉长视野来看,整个大模型行业的竞争是多维度的,安全赛道的领先并不等同于全局市场的领先。

据行业平台数据,截至 2026 年 5 月,Anthropic 在企业级 AI 订阅市场的份额已升至 41%,首次实现反超;企业级产品的商业化进展也保持较快速度。与之相对,GPT-5.5-Cyber 目前仅向经过资质验证的安全防御团队开放,商业化落地受准入机制限制,尚未进入大规模普及阶段。

整体而言,两大厂商在不同赛道各有侧重:一方在安全技术专项上实现突破,另一方在企业级通用市场保持优势。而更值得关注的行业趋势是,安全 AI 的竞争逻辑已经发生变化:上半场比拼的是漏洞发现的数量与效率,下半场的核心赛道则转向了修复闭环的能力与落地价值。从输出报告到交付补丁,从单向挖掘到全链路协同,GPT-5.5-Cyber 的出现,为行业下半场的竞争划定了新的能力基准线。

对于企业而言,无论是安全治理、研发提效还是业务创新,前沿大模型的价值正不断释放。但企业自行对接、运维多类大模型,往往面临接入流程复杂、算力成本高昂、运维管理繁琐等现实问题。UseAIAPI 已完成全球多款主流前沿大模型的接入覆盖,包含 Gemini、Claude、GPT、DeepSeek 等热门产品,可提供标准化接入接口与企业级定制化服务,帮助企业快速适配不同业务场景的 AI 需求,无需耗费大量精力处理复杂的接入与运维工作。在成本层面,平台推出专属优惠政策,调用成本最低可达官方定价的 50%,能够大幅降低大流量调用、高频次使用场景下的算力支出,让企业可以更灵活地将 AI 能力融入业务全链路,专注于核心价值的落地与提升。