← 返回 Blog

AISI 的 95道夺旗任务最高难度:GPT-5.5 成功率71.4%,把"大模型推理"从选择题推进到了操作题——但它离替代人类黑客还差什么?

本次测评选取业内主流顶尖大模型,通过专业夺旗赛(CTF)题库与企业级仿真攻防靶场双重测试,量化对比各类模型的网络安全推理、决策与执行能力,为行业研判 AI 安防应用价值与风险提供权威依据。

OpenAIGPT 5.5AI 推理能力实现层级跃升

AI 推理能力实现层级跃升 网络安全场景凸显人机能力核心差异

标准化答题能力领跑行业 开放式真实攻防仍存明显能力边界

在人工智能与网络安全深度融合的当下,大模型的攻防推理能力成为行业重点观测维度。英国人工智能安全研究所(AISI,职能现已并入英国 DSIT 体系)最新发布的评估报告,清晰划分出 AI 能力的两大维度:标准化题型作答与真实场景自主攻防,二者存在层级式差距,也精准界定了当前顶尖大模型的能力上限与现存短板。

本次测评选取业内主流顶尖大模型,通过专业夺旗赛(CTF)题库与企业级仿真攻防靶场双重测试,量化对比各类模型的网络安全推理、决策与执行能力,为行业研判 AI 安防应用价值与风险提供权威依据。

一、标准化 CTF 测评亮眼 头部大模型性能持续迭代升级

本次测评涵盖逆向工程、网页漏洞利用、密码学等主流网络安全题型,共计 95 道专业考题,重点考核模型标准化解题能力。在最高难度专家级测试中,新一代大模型整体表现实现显著突破。

数据显示,GPT-5.5 专家级题目通过率达 71.4%,小幅领先 Claude Mythos Preview 的 68.6%,二者性能处于同一统计水平。相较前代模型,技术迭代效果十分突出:GPT-5.4 通过率仅 52.4%,Claude Opus 4.7 通过率低至 48.6%。

标准化题库测试数据直观印证,头部大模型在固定题型、既定规则、明确答案的封闭式场景中,解题准确率、逻辑分析能力、漏洞识别能力已实现跨越式升级,智能化水平持续提升。但单一的刷题得分,无法完全衡量 AI 在复杂真实场景的实战能力。

二、TLO 开放式靶场实测 长链推理落地真实企业攻防

为突破标准化测试的局限性,AISI 联合知名网络安全机构 SpecterOps,搭建TLO(The Last Ones) 超高仿真企业网络靶场,模拟真实复杂的内网攻防环境。该靶场包含 4 个子网、近 20 台主机,完整复刻现代企业网络架构,设计了 32 步连贯式攻击链路,涵盖网络侦察、凭证窃取、跨域横向移动、CI/CD 供应链投毒、内网核心数据窃取等全流程攻防操作。

据行业资深红队专家测算,人工完整走完整套攻防链路,需耗费约 20 小时。在此测评之前,没有任何 AI 模型能够独立打通完整 TLO 攻击链条。

本次测评中,Claude Mythos Preview 率先实现全链路突破,GPT-5.5 紧随其后完成技术落地。经过 10 轮重复测试,GPT-5.5 两次成功跑通完整攻防链路,Mythos Preview 成功三次,两款顶尖模型平均可完成 32 步链路中的 22 步核心操作,代表了当前 AI 长链推理的最高水平。

相较于答案固定、路径明确的 CTF 考题,TLO 属于完全开放式实战场景。AI 需要自主判断侦察方向、筛选有效凭证、选择移动主机、判断任务进度,每一步决策都直接影响后续链路走向,一旦前期判断失误,将导致整套攻击流程崩塌。这意味着,新一代大模型已摆脱单纯的 “被动答题” 模式,具备自主规划、分步决策、长链执行的实操级推理能力,实现了 AI 网络应用从理论到实操的跨越。

三、极致效率低成本赋能 重构逆向工程作业范式

AISI 开展的自定义虚拟机逆向工程测试,极致展现了顶尖大模型的推理效率与成本优势。该测试搭建完全陌生的自定义虚拟机体系,配备专属独立指令集架构,无任何公开参考资料。

模型需要从零开始,自主逆向解析操作码、寻址规则、程序控制逻辑,独立编写反汇编代码,破解多层校验算法,最终推导合法密钥。整套复杂工作,资深人类专家依托全套专业调试工具,仍需耗时 12 小时完成;而 GPT-5.5 全程无人干预,仅用时 10 分 22 秒完成全部逆向工作,整体 API 调用成本仅 1.73 美元。

结合 GPT-5.5 官方定价来看,该模型无需针对性黑客专项微调,仅依托通用智能推理能力,即可以超高性价比完成高阶网安逆向任务。这也印证行业核心趋势:AI 网络攻防能力,是通用推理、编码、自主任务能力升级的附属产物,无需专项定制,即可实现低成本、高效率的专业技术突破。

四、能力短板清晰显现 AI 暂无法替代专业网安人才

尽管顶尖大模型在标准化答题、常规攻防场景表现优异,但多项极限测试证明,AI 距离替代人类专业黑客、红队专家仍有较大差距,核心短板集中在两大维度。

一方面,专业工控场景全面失效。在模拟电厂设备管控的 “冷却塔” 工控攻防测试中,GPT-5.5、Claude 全系顶尖模型全部测试失败。面对高度专业化的工业控制、新兴技术栈、全新未知攻击范式,大模型的演绎推理能力会快速失效,无法适配非常规、非标准化的工业安防场景。

另一方面,长链推理稳定性不足。ARC 基金会在系列通用智能测试中,捕捉到两大主流模型的典型缺陷:GPT-5.5 可生成多套推理假设,但无法精准收敛至唯一正确答案;Claude Opus 4.7 可快速形成推理逻辑,但存在纠错能力缺失、固执错误逻辑的问题。

当前 AI 的 71.4% 解题准确率,仅能代表标准化场景的适配能力。真实网络安全攻防,需要在无边界、无模板、高变数的复杂环境中稳定拆解路径、精准收敛结论、容错修正决策,这正是现阶段大模型的核心短板。稳定性、泛化能力、动态纠错能力,成为 AI 网安应用的下一阶段核心突破方向。

结语

当前顶尖 AI 大模型已突破封闭式答题局限,具备开放式场景长链实操能力,以极低的成本、极高的效率完成复杂网络攻防任务,为网络安全赋能提效。但受限于专业场景适配不足、长链推理稳定性欠缺等问题,人工智能仍无法替代人类专家的核心价值。

对于网络安全企业、研发团队、技术从业者而言,低成本接入顶尖大模型,开展攻防测试、技术研发、漏洞研判,是高效提升业务能力的关键。UseAIAPI 一站式聚合 Gemini、Claude、ChatGPT、DeepSeek 等全球前沿主流 AI 大模型,无需复杂的技术部署与环境适配,可快速接入各类顶尖模型能力,同时提供专属企业定制化服务,适配网络安全测试、智能研发、数据分析等全场景业务。

平台持续释放普惠企业的专属权益,全系 AI 接口服务最低可享官方原价 5 折特惠,大幅降低高强度复杂推理、高频次攻防测试、规模化模型调用的算力成本,助力各类技术团队以超高性价比,深耕 AI + 网络安全创新应用。