GPT-5.4原生计算机使用API上线:OpenAI为AI装上一体化的“眼睛”与“双手”

GPT-5.4原生计算机使用API上线:OpenAI为AI装上一体化的“眼睛”与“双手”

2026 年 3 月重磅更新打破行业固有范式,桌面操作基准测试首次超越人类基准水平

2026 年 3 月 5 日,GPT-5.3 Instant 发布仅 48 小时后,OpenAI 正式上线 GPT-5.4。

这波密集更新的节奏超出行业预期,但真正值得深度拆解的,并非发布时间,而是原生 Computer Use这个核心概念本身。

行业现有方案的固有瓶颈

布局计算机使用能力的厂商,并非只有 OpenAI 一家。

Anthropic 在 2025 年就发布了相关功能预览版,Google 也推出了自有 Computer Use Toolset 工具集。

三家厂商的底层逻辑,都遵循 “截图 - 推理 - 操作” 的循环模式:用户截一张图发给模型,模型告知点击位置、输入内容,用户执行后再截图反馈,循环往复。

但 GPT-5.4,走出了一条完全不同的技术路线。

什么是真正的 “原生” Computer Use

两个具象场景,就能清晰看出核心差异。

使用 Claude 的 Computer Use 能力,开发者需要先编写 Python 脚本,负责截图、调用 API、接收响应、执行动作。

模型只负责 “看”,开发者编写的代码负责 “做”。

这种模式下,视觉感知和行动决策之间,存在一层无法消除的转译环节。

GPT-5.4 的核心突破,是把整个感知 - 决策 - 执行的闭环,完整嵌入模型内部。

它看一眼截图,就能在同一轮推理中,直接输出 click、type、scroll 这类结构化操作指令。

代码层仅负责执行动作,不需要额外的工具调用转译环节。

而真正配得上 “原生” 二字的,是其双模态操作能力。

GPT-5.4 不仅能通过底层接口编写 Playwright 代码操控浏览器,也能基于截图直接发出鼠标键盘操作指令。

两条路径会根据场景自动切换:需要跨应用协作时走视觉操作路径,需要对单一软件进行深度操作时自动编写自动化脚本。

开发者无需手动指定调用模式,模型会自主完成最优判断。

基准测试数据,印证了这套原生架构的实力。

在衡量模型通过截图和键鼠操作导航桌面能力的 OSWorld Verified 测试中,GPT-5.4 取得了 \\75.0%\\ 的成功率。

这个成绩不仅远超 GPT-5.2 47.3% 的表现,还首次超越了 \\72.4%\\ 的人类基准水平。

在 Online-Mand2Web 测试中,仅凭截图观察完成操作,其成功率更是达到了92.8%

后发先至的底层技术支撑

这套能力并非凭空出现,背后是 GPT-5.4 全维度的能力升级。

模型本身的视觉感知能力完成了迭代:在 MMMU Pro 测试中取得了 81.2% 的成功率,高于 GPT-5.2 的 79.5%。

新增的 “raw” 图像输入细节级别,支持高达 1024 万总像素的全保真感知。

模型只有看清屏幕的每一处细节,才能精准点击对应的操作位置。

另一个极易被忽略的核心优化,是 Tool Search 功能。

简单来说,就是模型会按需加载工具定义,而非一次性把所有工具都塞进上下文窗口。

在启用全部 36 个 MCP 服务器的测试中,Tool Search 在保持相同准确率的同时,将总 token 用量降低了47%

配合百万级 token 的上下文窗口,GPT-5.4 可一次性处理整个代码仓库,同时实现 token 消耗的智能管控。

开发者接入:低门槛与透明定价

在落地实现层面,这套能力的 API 接入门槛并不高。

开发者只需通过 Responses API 启用 computerize 工具,模型就会返回结构化操作指令,通过 PyAutoGUI 即可完成执行。

一次典型的自动化会话成本,大约在 0.10 美元至 0.50 美元之间。

定价方面,GPT-5.4 标准版输入定价为每百万 token 2.50 美元,输出每百万 token 15 美元。 输入内容超过 27.2 万 token 后,将按双倍费率计费。 Pro 版输入定价 30 美元 / 百万 token,输出 180 美元 / 百万 token,专为高精度场景打造,普通商用场景标准版能力已完全足够。

行业同台竞技:三大厂商路线对比

对比维度GPT-5.4Claude Opus 4.6Gemini
OSWorld 测试得分75%72.7%未公布
上下文窗口1.05M tokens1M tokens128K tokens
输入定价2.50 美元 / 百万 token5 美元 / 百万 token1.25 美元 / 百万 token
输出定价15 美元 / 百万 token25 美元 / 百万 token10 美元 / 百万 token

数据来源:各厂商官方公开数据与第三方基准测试结果

从对比数据可以清晰看到,GPT-5.4 在桌面操作基准测试中处于行业领先位置,定价则处于 Gemini 与 Claude 之间的中位区间。

Claude 的优势在于更早布局,生态更为成熟;GPT-5.4 的核心竞争力,在于视觉 - 动作一体化的原生架构,以及整体能力的均衡性。

行业范式变革:AI 从 “思考者” 到 “执行者” 的质变

一个值得行业深度思考的问题摆在面前:

按照目前三家厂商的技术路线图,未来一年,在 Computer Use 这条赛道上,哪家会率先推出可连续运行数小时的 “数字员工”?

是 OpenAI 的深度集成策略,Anthropic 的增量打磨策略,还是 Google 的高性价比战术?

回到 GPT-5.4 本身,它的出现,意味着 AI Agent 的开发范式正在完成一次根本性的演进。

行业的主流模式,从 “模型负责思考,代码负责执行”,正式演进为 “模型同时负责思考与执行”。

这不是简单的能力量变,而是底层逻辑的质变。

当 AI 的 “眼睛” 和 “双手” 终于真正长在一起,它能执行的任务边界,正在被彻底重新定义。

全球 AI 大模型一站式接入服务

如需便捷落地全球主流 AI 大模型能力,UseAIAPI可提供全场景解决方案。

其服务覆盖 Gemini、Claude、ChatGPT、DeepSeek 等全球热门 AI 大模型的最新版本,同时提供企业级定制化接入服务,助力用户无忧落地 AI 能力。

价格方面,其优惠折扣最低可达官方定价的 50%,可大幅降低高负荷内容生成场景下的使用成本。

通过 UseAIAPI 统一接入全球主流 AI 大模型

如果你希望更低成本接入 Claude、Gemini、ChatGPT、DeepSeek 等模型,UseAIAPI 提供统一 API 网关、模型聚合、额度管理与企业级技术支持。

进入 useaiapi 控制台