← 返回 Blog

用 Claude 4.7 的 3.75MP 视觉 + 1:1 像素坐标直接抓 UI 元素:RPA 脚本不用写 XPath 了?实测结果……

长期以来,XPath 定位一直是 RPA(机器人流程自动化)开发的核心技术,但也因其先天脆弱性成为行业最大痛点。随着 Claude Opus 4.7 高分辨率视觉能力的全面升级,这一局面正在发生根本性改变。核心结论十分明确:XPath 的垄断地位已被打破,但并非彻底消亡,未来企业自动化将走向 "传统 RPA + 大模型视觉" 的混合架构。

ClaudeClaude CodeClaude 4.7 重塑企业自动化格局

Claude 4.7 重塑企业自动化格局:XPath 垄断地位被打破

长期以来,XPath 定位一直是 RPA(机器人流程自动化)开发的核心技术,但也因其先天脆弱性成为行业最大痛点。随着 Claude Opus 4.7 高分辨率视觉能力的全面升级,这一局面正在发生根本性改变。核心结论十分明确:XPath 的垄断地位已被打破,但并非彻底消亡,未来企业自动化将走向 "传统 RPA + 大模型视觉" 的混合架构。

一、传统 RPA 的核心痛点:XPath 的先天脆弱性

传统 RPA 开发中最耗费精力的环节,从来不是业务逻辑编写,而是页面元素定位。为了找到一个 "提交" 按钮,开发者需要打开开发者工具翻找复杂的 DOM 树,写出冗长的 XPath 表达式:

plaintext

/html/body/div[3]/form/button[2]

这种方式存在致命缺陷:它完全依赖 UI 的实现结构。只要前端工程师多嵌套一层 div、修改一个 class 名,甚至调整元素顺序,整条 RPA 脚本就会彻底失效。更糟糕的是,系统只会提示 "XPath 定位失败",却看不到那个 "提交" 按钮明明还在屏幕上,只是位置变了。

据行业统计,传统 RPA 项目中约 60% 的维护成本都用于修复因界面改版导致的元素定位错误,这一问题在无 API 的老系统、政务门户和 SaaS 后台中尤为突出。

二、Opus 4.7 的技术突破:从 DOM 定位到视觉定位

Claude Opus 4.7 将图像输入最长边分辨率从 1568px 提升至 2576px,视觉精度从 4.6 版本的 54.5% 跃升至 98.5%(XBOW 基准测试),彻底解决了大模型视觉定位的核心痛点。现在,RPA 元素定位被简化为三步:

  1. 截取当前屏幕
  2. 向模型发送指令:"点击提交按钮"
  3. 模型返回目标元素的像素坐标,执行点击操作

整个过程不需要知道按钮的 ID、class 名,甚至不在乎它是原生 HTML 元素还是 Canvas 渲染的图形,只要在屏幕上可见,模型就能精准识别。

(一)1:1 像素对应,消除坐标换算误差

4.6 版本时代存在一个公认的暗坑:截图必须先被压缩到 1568px 长边才能进入处理管道,模型在压缩图上计算出坐标后,还需要开发者手动乘以缩放因子映射回真实屏幕像素。多一层换算就多一个误差源,这也是此前视觉 RPA 经常出现点偏、点飞的主要原因。

Opus 4.7 彻底解决了这一问题。Anthropic 官方明确表示:"模型坐标与实际像素 1:1 对应,不需要任何缩放因子换算。" 一张标准 1080p 全屏截图可以几乎原生尺寸进入模型视野,界面角落的小按钮也不会因压缩而模糊,坐标精度得到了根本保障。

官方同时给出了三条实操最佳实践:

  • 不要依赖 API 的静默缩放,提前将截图预缩到目标尺寸(4.6 系列建议 1280×720,4.7 系列支持 1920×1080)
  • macOS Retina 屏幕截图为 2× 设备像素比,"1280×720" 的截图实际分辨率为 2560×1440,需要额外处理
  • 将文字指令放在图片前面,图片在前会降低定位准确率

(二)模型选型建议:按需匹配不同任务

并非所有场景都需要使用 Opus 4.7。官方指南特别指出,Claude Sonnet 4.6 在纯点击精度上表现更稳定,尤其在截图需要重度压缩的场景下鲁棒性更强。不同模型的适用场景如下:

表格

模型核心优势最佳适用场景
Claude Opus 4.7高分辨率视觉 + 深度推理复杂界面操作、多步工作流、需要理解上下文的任务
Claude Sonnet 4.6机械精度高、成本低纯高密度 UI 点击、标准化轻量任务

三、实测验证:生产环境可用性大幅提升

多项权威基准测试和企业实测数据表明,基于 Claude 4.7 的视觉自动化方案已经走出演示阶段,具备了生产落地能力:

  • 在 ScreenSpot-Pro 专业软件 UI 元素定位测试中,Opus 4.7 的准确率达到 87.6%,较 4.6 版本提升了近 30 个百分点;
  • 在 OSWorld-Verified 真实桌面环境测试中,整体任务完成率从 72.7% 提升至 78.0%;
  • 多家企业在无 API 的老 ERP、政务监管门户、SaaS 后台等传统 RPA 重灾区进行了试点,结果显示,当网站界面改版后,Opus 4.7 能够自动重新观察界面变化并继续执行任务,完美解决了 XPath 最怕的 "结构漂移" 问题。

四、理性选择:混合架构才是未来方向

尽管 Claude 4.7 带来了革命性突破,但我们仍需理性看待其局限性,盲目淘汰所有 XPath 脚本并不可取。

(一)不可忽视的两大局限

  1. 成本问题:高清截图的 token 消耗显著高于低分辨率图像。对于简单文本提取等不需要极致细节的场景,无脑开启 2576px 分辨率会导致不必要的成本上升。
  2. 确定性问题:XPath 执行一千次结果完全一致,而大模型的 "观察 - 判断 - 点击" 是独立的视觉决策过程,存在一定的结果方差。在合规审计、财务记账等要求严格可复现性的流程中,这种不确定性仍是重大隐患。

(二)最佳实践:RPA + 大模型协同

2026 年企业自动化的最优解不是二选一,而是优势互补的混合架构:

  • 标准化高重复路径:保留传统 RPA+XPath 方案,守住确定性和低成本的高地;
  • 边界场景:将界面可变、XPath 不可靠、流程复杂度不可预知的异常处理环节,交给 Claude 4.7 的视觉能力。

对于需要同时使用多款 AI 大模型构建自动化流程的企业而言,选择专业可靠的一站式服务平台能够大幅降低集成成本和运维难度。UseAIAPI 整合了 Claude、Gemini、ChatGPT、DeepSeek 等全球热门 AI 大模型,提供稳定便捷的统一接入服务,用户无需分别对接多个平台的 API。平台还支持企业级定制化需求,可根据不同行业的自动化场景量身打造解决方案。在价格方面,UseAIAPI 推出了极具竞争力的优惠政策,所有服务最低可享官方价格五折,能够有效抵消高分辨率视觉调用带来的成本增加,让企业无需为高昂的算力费用担忧。

结语

Claude Opus 4.7 的出现,标志着企业自动化进入了视觉智能的新时代。XPath 作为垄断性元素定位技术的时代已经结束,但它并不会彻底消失。未来,最成功的自动化方案将是传统 RPA 的确定性与大模型的灵活性的完美结合。理解这一趋势,合理规划技术路线,才能在 AI 时代的自动化变革中占据先机。