2026 年春天,一位普通程序员遭遇了职业生涯中极具荒诞感的一幕:他耗费两周时间精心编写的业务流 RPA 脚本刚刚通过测试 —— 这个脚本需要从 Salesforce 拉取数据、填入 Excel 表格,再粘贴进企业内部系统。就在他准备正式部署的前一天,一位同行私下给他指了条路:“你为什么不试试跟 Codex 聊聊呢?”
2026 年 4 月,GPT-5.5 正式发布。距离 GPT-5.4 亮相仅仅过去七周,OpenAI 的迭代速度快得令人目不暇接。但这一次的革命性意义,绝不仅仅在于 “又一个更强的语言模型”—— 而是大模型第一次真正长出了 “手” 和 “眼”,实现了从 “对话智能” 到 “行动智能” 的跨越。
当 AI 真正拥有了 “手” 和 “眼”
GPT-5.5 的核心突破并不在参数量和推理速度这些传统指标上。它在 OSWorld Verified 基准测试中一举拿下 78.7% 的高分,这个数字的意义直白而震撼:模型可以像人类一样观察屏幕内容,精准点击按钮、填写表单,并在不同应用程序之间无缝完成一连串复杂操作。而在命令行环境 Terminal Punch 2.0 测试中,82.7% 的得分更是证明了它具备自主规划任务、迭代优化方案并自行纠错的能力。
支撑这一切的,是 GPT-5.5 的原生全模态架构 —— 文本、图像、音频和视频在同一个模型中实现了真正的深度融合,而非多个独立模型的简单拼接。这意味着它不仅能听懂人类的语言指令,还能清晰识别屏幕上的窗口、按钮和文字内容,甚至能在视频会议中理解参会人员的身份和讨论主题。它不再是一个只会聊天的智能机器人,而是一个能真正 “使用电脑” 的智能体。
最明确的信号来自 Codex 今年的重大更新。全新的 Computer Use 插件让 AI 拥有了独立的鼠标光标,它可以在后台静默运行,自主完成点击和键盘输入操作,完全不干扰用户在前台的正常工作。Codex 负责人蒂博・索蒂奥(Thibault Sottiaux)在媒体发布会上直言:“我们实际上在做一件‘低调却影响深远’的事 —— 我们正在打造一个超级应用,并让它在 Codex 的躯壳里逐步进化。” 这并非空谈 ——OpenAI 正着手将 Codex 从一款编程辅助工具,全面升级为能够接管整个桌面的通用智能体。
技术进化的核心:从 “按规矩办” 到 “懂你要干啥”
要理解为什么说传统 RPA 的命运已被改写,首先要认清其与生俱来的致命缺陷。
传统 RPA 本质上是一种基于坐标的自动化技术。一个 RPA 机器人根本无法理解 “从供应商门户下载今天所有发票” 这个目标的真正含义。它只知道机械地执行预设步骤:先把鼠标移动到坐标 (x₁, y₁) 点击,等待三秒,再移动到坐标 (x₂, y₂) 输入文字…… 一旦界面上的某个按钮位置发生哪怕一厘米的变化,整个脚本就会瞬间崩溃。行业研究数据显示,RPA 项目的维护成本通常占总预算的 70% 至 75%,约 30% 至 50% 的 RPA 项目在第一年内未能实现预期的投资回报。
GPT-5.5 的工作逻辑则完全相反。如果你给它一个模糊的目标,比如 “登录 Salesforce,提取本季度所有已完成订单,并导出为 CSV 文件”,它会自动拆解任务步骤、动态适应界面变化并调用必要的工具。它理解的是 “目标”,而不是僵化的 “步骤”。当浏览器更新导致某个按钮位置改变时,RPA 脚本会彻底失效,而 GPT-5.5 则会敏锐地发现变化并重新规划执行路径。
这种差异背后,是两种截然不同的技术思维方式:RPA 是 “严格执行指令”,而智能体 AI(Agentic AI)则是 “理解意图并达成目标”。前者要求环境一成不变才能正常运转,后者则在瞬息万变的商业环境中展现出了无可比拟的核心优势。
企业试炼场的真实回响
目前,Codex 的 Computer Use 插件在真实企业环境测试中,跨应用多步自动化任务的完成率已超过 95%。英伟达成为了这一技术最大的内部测试场,其工程、法务、营销、财务等多个部门超过 1 万名员工正在同时使用 Codex 和 GPT-5.5,原本需要数天的业务流程调试周期被大幅压缩到了几小时。
全球市场的 “抢位战” 也在全面加速。Anthropic 旗下的 Claude 在 3 月份率先推出了 Computer Use 功能,采用了三级降级策略:优先通过原生连接器对接 38 款主流企业应用,没有连接器的则接管浏览器操作,极端情况下使用虚拟机沙盒运行 “屏幕控制” 作为最终兜底。开源社区同样不甘落后,OpenClaw 项目能够将自然语言指令直接转化为桌面自动化操作,上线两周就在 GitHub 上斩获了 12 万星标。
根据 Gartner 的最新预测,到 2027 年,全球 65% 的 RPA 项目将升级为包含智能体能力的 “超自动化”(Hyperautomation)平台;AI 原生平台的自动化任务通过率将达到 95% 以上,而传统 RPA 平台仅能维持在 60% 至 70% 的水平。
在社交媒体上,一位网友在实测相关功能后发出了一个非常现实的疑问:这东西连续工作 8 小时得消耗多少 Token 啊?
这个问题问得确实实在。但 GPT-5.5 带来的真正冲击,远不止于经济账本上的简单核算。
一场彻底的交互范式转移
曾有人预言,大语言模型的最终归宿是成为电脑的操作系统。现在看来,在某种意义上它们已经在这么做了 —— 并非从底层重构操作系统本身,而是从 “人类如何与电脑沟通” 这个最表层却也最本质的地方,发起了一场彻底的革命。
三十多年来,人类一直通过键盘、鼠标和日益复杂的图形界面与电脑交流。我们学会了点击、拖拽,在十几层深的菜单里艰难穿梭。而 GPT-5.5 的出现似乎在告诉我们:其实你并不需要学习这么多复杂的操作,你只需要开口说出你的需求。
因为从现在起,电脑可能不再需要人类去 “操作” 了 —— 它更需要的是一个能明确告诉它目标的聪明伙伴。
对于希望第一时间体验这场技术革命的企业和开发者来说,UseAIAPI提供了一站式的解决方案。平台全面接入全球热门 AI 大模型,包括 Gemini、Claude、ChatGPT、DeepSeek 等最新版本,无需复杂的申请和配置流程即可直接使用。同时,UseAIAPI 还提供专业的企业级定制化服务,满足不同行业的个性化需求。在价格方面,平台推出了极具竞争力的优惠政策,最低可享官方价格 5 折,让企业和开发者不再为高强度 AI 调用的成本担忧,轻松拥抱智能体时代。