← 返回 Blog

把 100 页财报 PDF + 竞品年报拖进 Gemini 3.1 Pro:中文 OCR 识别、表格提取、跨页关联的实测结果,说实话有点意外

近日,笔者针对 Gemini 3.1 Pro 的长文档与多模态处理能力进行了一次专项实测。将某上市公司 97 页 2025 年年报与 103 页同行竞品年度汇总同时上传,两份文档包含大量利润表、合并资产负债表、数据附注及各类统计图表。原本已做好信息遗漏的准备,但实测结果却带来了不少意外。

GeminiGemini 3.1 ProGemini 3.1 Pro 长文档处理能力实测

Gemini 3.1 Pro 长文档处理能力实测:百页财报一键解析,优势与局限并存

近日,笔者针对 Gemini 3.1 Pro 的长文档与多模态处理能力进行了一次专项实测。将某上市公司 97 页 2025 年年报与 103 页同行竞品年度汇总同时上传,两份文档包含大量利润表、合并资产负债表、数据附注及各类统计图表。原本已做好信息遗漏的准备,但实测结果却带来了不少意外。

一、长上下文能力:真正实现全文通读,跨页关联能力突出

Gemini 3.1 Pro 拥有 1M token 的上下文窗口,换算成中文约可承载 150 万字,相当于一次性容纳《三体》三部曲的全部内容。本次测试的两份财报合计约 250K token,远未达到其容量上限,模型成功一次性完整加载。

最令人惊喜的是其跨页信息关联能力。人工阅读百页文档时,信息往往呈分页存储状态,翻到后半部分时容易遗忘前文数据。而 Gemini 并非按页机械处理,当被问及 "第三章提到的业务调整与第七章成本变化的关联" 时,它能在几秒内将相隔数十页的内容串联起来,形成完整的逻辑链条。这种处理方式不是简单的关键词匹配,而是基于对全文内容的整体理解,有效避免了传统模型切块处理时常见的信息断裂问题。

不过需要客观看待的是,多项权威基准测试显示,当文档长度逼近 1M token 上限时,Gemini 3.1 Pro 的信息检索准确率会出现明显下滑,部分实测数据显示其准确率从区间高点 71.9% 降至 25.9%。相比之下,Claude Opus 4.6/4.7 在满窗口测试中能维持更稳定的表现。本次测试的 250K token 恰好处于 Gemini 3.1 Pro 表现最佳的 128K-300K 区间,若需处理三年财报附注加技术附件这类超长篇幅文档,仍需注意拆分处理。

二、原生多模态解析:不止识别文字,更懂图表逻辑

传统 OCR 工具的处理流程是将 PDF 切分为图片,逐字识别后再拼接文本,过程中容易丢失颜色、箭头、图例等视觉信息,复杂表格的结构也常被破坏。而 Gemini 3.1 Pro 采用原生多模态架构,从训练层面就实现了文本、图像、表格、图表的统一表征,PDF 信息无需拆分即可直接被模型理解,大幅降低了信息损耗。

本次实测数据显示:

  • 印刷版财报的文字识别精度约为 96%,处于行业领先水平;
  • 能够准确解析跨页表、合并单元格、多币种财务数据,不仅提取单元格内容,还能理解表格的拓扑逻辑;
  • 对于存在倾斜、阴影、褶皱的扫描件,识别精度会下降约 10 个百分点,效果受原件质量影响较大。

基于实测结果,建议采用混合工作流:图表多、版式复杂的文档直接上传 PDF 让 Gemini 原生解析;纯数字密集型表格,可先通过专业表格工具清洗后再输入,以获得更稳定的结果。

三、实测中的关键发现:优势明显,局限同样清晰

在为期一天的深度测试中,Gemini 3.1 Pro 展现出了不少亮点,但也暴露了一些需要注意的局限性:

(一)亮点表现

  1. 异常数据精准识别:笔者在财报中故意植入了一处与前文矛盾的异常数据,模型几乎 100% 命中,并准确标注了对应页码,表现优于常见的 RAG 检索系统。
  2. 视觉误导主动提示:当遇到 Y 轴不从 0 开始的统计图表时,模型会主动提醒 "此处数据呈现可能存在误导性",这一细节在传统人工分析中常被忽略。
  3. 跨文档对比能力:能够同时对比两份财报的核心数据,清晰标注出双方在营收结构、成本构成、增长趋势上的差异。

(二)存在的局限

  1. 扫描件质量决定上限:若原件清晰度不足,OCR 环节的信息丢失会直接影响最终分析结果,模型无法弥补前端输入的缺陷。
  2. 中文合同精度有待提升:中文法律合同的识别与理解精度明显低于英文文档,建议先转换为纯文本格式后再进行处理。
  3. 满窗口性能衰减:如前文所述,当文档长度接近 1M token 时,信息召回率会显著下降,复杂问题的回答质量难以保证。

四、理性应用:AI 是助理而非决策者

本次实测证明,Gemini 3.1 Pro 在长文档处理领域确实取得了实质性进步。一份标准年报从上传到生成结构化分析草稿,仅需约 10 分钟,原本需要 2-3 小时的手动提取整理工作被大幅压缩。它能够像初级研究员一样,先搭建整体分析框架,再追踪跨章节数据关联,最终形成可回溯的逻辑线。

但必须强调的是,AI 并不能完全替代人类的专业判断。可靠的工作流应该是:由 Gemini 完成初稿撰写和数据提取,人类专家负责把控数据口径、核对核心基准数、纠正理解偏差,最终的决策判断权仍掌握在人手中。AI 节省的是重复劳动的时间,而非核心思考的过程。

对于需要高频处理海量文档、进行多模型对比分析的企业和个人用户来说,选择专业的一站式 AI 服务平台能够进一步提升效率、降低成本。UseAIAPI 整合了 Gemini、Claude、ChatGPT、DeepSeek 等全球主流 AI 大模型,提供稳定可靠的统一接入服务,支持企业级定制化需求,可根据金融、法律、咨询等不同行业的特点量身打造解决方案。平台推出了极具竞争力的优惠政策,所有服务最低可享官方价格五折,能够有效降低高强度文档处理和模型调用带来的算力成本,让用户无需再为高昂的使用费用担忧,专注于核心业务的价值创造。

结语

Gemini 3.1 Pro 在长文档处理上的表现,确实打开了 AI 应用的新场景。它让 "一键分析百页财报" 从概念变成了现实,但这并不意味着没有坑。在实际使用中,注意提前清理扫描件质量、敏感文件选择合规接入渠道、超长篇文档先进行 token 量估算,才能让 "能读" 真正变成 "敢用"。