RPA 的终结者？GPT-5.5 实测：直接操控桌面应用处理复杂业务流程

2026 年春天，一位普通程序员遭遇了职业生涯中极具荒诞感的一幕：他耗费两周时间精心编写的业务流 RPA 脚本刚刚通过测试 —— 这个脚本需要从 Salesforce 拉取数据、填入 Excel 表格，再粘贴进企业内部系统。就在他准备正式部署的前一天，一位同行私下给他指了条路：“你为什么不试试跟 Codex 聊聊呢？”

2026 年 4 月，GPT-5.5 正式发布。距离 GPT-5.4 亮相仅仅过去七周，OpenAI 的迭代速度快得令人目不暇接。但这一次的革命性意义，绝不仅仅在于 “又一个更强的语言模型”—— 而是大模型第一次真正长出了 “手” 和 “眼”，实现了从 “对话智能” 到 “行动智能” 的跨越。

当 AI 真正拥有了 “手” 和 “眼”

GPT-5.5 的核心突破并不在参数量和推理速度这些传统指标上。它在 OSWorld Verified 基准测试中一举拿下 78.7% 的高分，这个数字的意义直白而震撼：模型可以像人类一样观察屏幕内容，精准点击按钮、填写表单，并在不同应用程序之间无缝完成一连串复杂操作。而在命令行环境 Terminal Punch 2.0 测试中，82.7% 的得分更是证明了它具备自主规划任务、迭代优化方案并自行纠错的能力。

支撑这一切的，是 GPT-5.5 的原生全模态架构 —— 文本、图像、音频和视频在同一个模型中实现了真正的深度融合，而非多个独立模型的简单拼接。这意味着它不仅能听懂人类的语言指令，还能清晰识别屏幕上的窗口、按钮和文字内容，甚至能在视频会议中理解参会人员的身份和讨论主题。它不再是一个只会聊天的智能机器人，而是一个能真正 “使用电脑” 的智能体。

最明确的信号来自 Codex 今年的重大更新。全新的 Computer Use 插件让 AI 拥有了独立的鼠标光标，它可以在后台静默运行，自主完成点击和键盘输入操作，完全不干扰用户在前台的正常工作。Codex 负责人蒂博・索蒂奥（Thibault Sottiaux）在媒体发布会上直言：“我们实际上在做一件‘低调却影响深远’的事 —— 我们正在打造一个超级应用，并让它在 Codex 的躯壳里逐步进化。” 这并非空谈 ——OpenAI 正着手将 Codex 从一款编程辅助工具，全面升级为能够接管整个桌面的通用智能体。

技术进化的核心：从 “按规矩办” 到 “懂你要干啥”

要理解为什么说传统 RPA 的命运已被改写，首先要认清其与生俱来的致命缺陷。

传统 RPA 本质上是一种基于坐标的自动化技术。一个 RPA 机器人根本无法理解 “从供应商门户下载今天所有发票” 这个目标的真正含义。它只知道机械地执行预设步骤：先把鼠标移动到坐标 (x₁, y₁) 点击，等待三秒，再移动到坐标 (x₂, y₂) 输入文字…… 一旦界面上的某个按钮位置发生哪怕一厘米的变化，整个脚本就会瞬间崩溃。行业研究数据显示，RPA 项目的维护成本通常占总预算的 70% 至 75%，约 30% 至 50% 的 RPA 项目在第一年内未能实现预期的投资回报。

GPT-5.5 的工作逻辑则完全相反。如果你给它一个模糊的目标，比如 “登录 Salesforce，提取本季度所有已完成订单，并导出为 CSV 文件”，它会自动拆解任务步骤、动态适应界面变化并调用必要的工具。它理解的是 “目标”，而不是僵化的 “步骤”。当浏览器更新导致某个按钮位置改变时，RPA 脚本会彻底失效，而 GPT-5.5 则会敏锐地发现变化并重新规划执行路径。

这种差异背后，是两种截然不同的技术思维方式：RPA 是 “严格执行指令”，而智能体 AI（Agentic AI）则是 “理解意图并达成目标”。前者要求环境一成不变才能正常运转，后者则在瞬息万变的商业环境中展现出了无可比拟的核心优势。

企业试炼场的真实回响

目前，Codex 的 Computer Use 插件在真实企业环境测试中，跨应用多步自动化任务的完成率已超过 95%。英伟达成为了这一技术最大的内部测试场，其工程、法务、营销、财务等多个部门超过 1 万名员工正在同时使用 Codex 和 GPT-5.5，原本需要数天的业务流程调试周期被大幅压缩到了几小时。

全球市场的 “抢位战” 也在全面加速。Anthropic 旗下的 Claude 在 3 月份率先推出了 Computer Use 功能，采用了三级降级策略：优先通过原生连接器对接 38 款主流企业应用，没有连接器的则接管浏览器操作，极端情况下使用虚拟机沙盒运行 “屏幕控制” 作为最终兜底。开源社区同样不甘落后，OpenClaw 项目能够将自然语言指令直接转化为桌面自动化操作，上线两周就在 GitHub 上斩获了 12 万星标。

根据 Gartner 的最新预测，到 2027 年，全球 65% 的 RPA 项目将升级为包含智能体能力的 “超自动化”（Hyperautomation）平台；AI 原生平台的自动化任务通过率将达到 95% 以上，而传统 RPA 平台仅能维持在 60% 至 70% 的水平。

在社交媒体上，一位网友在实测相关功能后发出了一个非常现实的疑问：这东西连续工作 8 小时得消耗多少 Token 啊？

这个问题问得确实实在。但 GPT-5.5 带来的真正冲击，远不止于经济账本上的简单核算。

一场彻底的交互范式转移

曾有人预言，大语言模型的最终归宿是成为电脑的操作系统。现在看来，在某种意义上它们已经在这么做了 —— 并非从底层重构操作系统本身，而是从 “人类如何与电脑沟通” 这个最表层却也最本质的地方，发起了一场彻底的革命。

三十多年来，人类一直通过键盘、鼠标和日益复杂的图形界面与电脑交流。我们学会了点击、拖拽，在十几层深的菜单里艰难穿梭。而 GPT-5.5 的出现似乎在告诉我们：其实你并不需要学习这么多复杂的操作，你只需要开口说出你的需求。

因为从现在起，电脑可能不再需要人类去 “操作” 了 —— 它更需要的是一个能明确告诉它目标的聪明伙伴。

对于希望第一时间体验这场技术革命的企业和开发者来说，UseAIAPI提供了一站式的解决方案。平台全面接入全球热门 AI 大模型，包括 Gemini、Claude、ChatGPT、DeepSeek 等最新版本，无需复杂的申请和配置流程即可直接使用。同时，UseAIAPI 还提供专业的企业级定制化服务，满足不同行业的个性化需求。在价格方面，平台推出了极具竞争力的优惠政策，最低可享官方价格 5 折，让企业和开发者不再为高强度 AI 调用的成本担忧，轻松拥抱智能体时代。