← 返回 Blog

GPT-5.6 的 150 万 vs Claude 的 200 万 vs Gemini 的 200 万:同样是"百万级上下文",谁的有效记忆不掺水?我们做了 needle-in-haystack 穿透测试

近年来,人工智能大模型的上下文窗口能力成为行业竞争的焦点。从 128K 到 1M 再到宣称的 2M tokens,厂商们不断刷新着信息承载量的纪录。在铺天盖地的宣传中,一种危险的认知正在蔓延:上下文窗口越大,模型就能记住越多的信息,能力也就越强。

ChatGPTGemini 3.1 Pro 支持 200 万 tokens 上下文

长上下文技术认知误区:窗口扩容不等于记忆能力提升

近年来,人工智能大模型的上下文窗口能力成为行业竞争的焦点。从 128K 到 1M 再到宣称的 2M tokens,厂商们不断刷新着信息承载量的纪录。在铺天盖地的宣传中,一种危险的认知正在蔓延:上下文窗口越大,模型就能记住越多的信息,能力也就越强。

但事实并非如此。如果把大模型的注意力机制比作一束手电筒的光,那么当光束聚焦在狭窄区域时,光斑会非常明亮;而当光束被不断扩宽时,光线会变得越来越暗淡。你往对话中塞入的文字越多,模型对每个细节给予同等关注的可能性反而越低。这不是主观猜测,而是学术界经过反复验证的客观结论。

一、学术实证:无法回避的 “中间丢失” 现象

2023 年,斯坦福大学的 Nelson F. Liu 与加州大学伯克利分校的 Kevin Lin、John Hewitt、Percy Liang 等人在国际顶级计算语言学期刊 TACL 上发表了题为《Lost in the Middle: How Language Models Use Long Contexts》的经典论文,通过严格的受控实验揭示了长上下文模型的固有缺陷。

研究人员设计了一个巧妙的实验:将包含正确答案的关键文档隐藏在一组无关文档中间,然后系统性地移动这份关键文档在输入序列中的位置,保持内容完全不变,仅调整顺序,测试模型回答问题的准确率。实验结果呈现出一条稳定且可复现的 U 形性能曲线:

表格

关键文档在序列中的位置模型平均准确率现象解释
序列开头(第 1 位)~75%首因效应显著,系统提示和开头的框架信息会被后续所有 token 反复关注
序列正中间~55% 甚至更低中段两头不靠,既没有开头的权威特权,也没有结尾的邻近优势
序列结尾(最后 1 位)~66%-72%近因效应明显,生成位点在序列末尾,结尾信息天然具有更高的权重

最令人警醒的一个数据点是:当相关文档被放在序列中段时,GPT-3.5-Turbo 的开卷问答成绩甚至跌到了 56.1% 以下,低于不给任何文档的闭卷测试基线。这意味着,在这种情况下,塞入更多的信息不仅没有帮助,反而会干扰模型的判断,产生负面效果。

二、机理根因:Transformer 架构的固有特性

“中间丢失” 现象并非偶然,而是由自回归 Transformer 的底层机制决定的。

大模型的注意力机制基于 Softmax 函数,其 “总和为 1” 的约束迫使注意力权重必须分配到序列的各个位置。在训练过程中,模型学会了将不成比例的巨大权重分配给序列最开始的几个 token,哪怕这些 token 只是起始符、分隔符或无关紧要的虚词。同时,由于自回归模型的生成位点始终在序列末尾,结尾的信息也天然具有更高的关注度。

再加上因果掩码和旋转位置编码的交互作用,序列中间 50% 的区域就变成了注意力浓度的荒漠 —— 权重被两极大量吸走,中段无法获得足够的关注度来形成稳定的语义表示。

三、标称窗口与有效记忆的巨大差距

当前市场上关于上下文窗口的宣传存在不少混淆。例如,部分宣传材料称 Gemini 3.1 Pro 支持 200 万 tokens 上下文,但根据 Google DeepMind 官方发布的模型卡片,其实际上下文窗口为 1048576 tokens(即 1M),单次最大输出为 65536 tokens。

但无论标称的窗口是 1M 还是 2M,“中间丢失” 的问题都不会因为窗口的扩大而消失。它只是让 “中段荒地” 的面积变得更大了而已。只要你不能保证所有关键信息都永远贴在序列的前 10% 或后 10%,那么无论窗口多大,模型的有效记忆能力都会被中段盲点显著稀释。

四、理性看待长上下文技术的价值

长上下文窗口是一项重要的技术进步,它解决了过去必须手动切片处理长文档的痛点。对于需要一次性载入整份合同、整部小说或整个代码仓库的场景,长上下文能力确实能够显著提升效率。

但我们必须清醒地认识到,窗口扩容不等于理解能力和记忆能力的同比提升。在进行跨文档深度推理时,你需要时刻问自己一个问题:前序邮件链里那句隐藏的授权条款、各个子模块里散落的依赖关系,有没有掉进模型的中段盲点?

真正高效的长上下文应用,不是盲目地将所有信息一股脑塞进对话框,而是结合检索技术和提示词工程,主动将关键信息锚定在模型注意力的高效区域。

为了帮助广大企业和开发者更便捷、更经济地体验全球领先的长上下文大模型技术,UseAIAPI 平台提供一站式大模型接入解决方案,全面支持 Gemini、Claude、ChatGPT、DeepSeek 等最新主流 AI 大模型。平台无需复杂的配置和漫长的申请流程,用户注册后即可立即使用所有模型服务,方便根据不同业务场景灵活选择最合适的模型。在成本方面,平台推出了长期稳定的优惠政策,所有模型服务最低可享官方价格的 5 折优惠,大幅降低了企业在长文档处理、代码开发、智能分析等场景下的 AI 使用成本。同时,平台配备专业的技术服务团队,提供 7×24 小时技术支持和企业级定制化服务,能够根据不同行业的业务需求,打造专属的 AI 应用解决方案,助力企业实现数字化转型。