深度研究

上下文稀释:为什么更多 Token
可能意味着更低的 AI 性能

将所有代码发送给 LLM 并不会让它更智能——而是会让它困惑。研究表明,随着上下文窗口增加,性能会出现可预测的下降。

2025 年 12 月 24 日
12 分钟阅读

斯坦福、Google、Anthropic 和 Meta 的研究表明,当上下文窗口包含过多信息时,大型语言模型会出现可预测的性能下降。这种被称为上下文稀释的现象会导致模型在长提示中「丢失」关键信息,随着上下文增加,准确率下降13.9% 到 85%——即使模型能完美访问相关数据。

13.9-85%

随上下文增加的准确率下降

20+ pp

信息位于中间时的性能下降

49-67%

通过上下文检索减少的错误

「迷失在中间」现象:为什么位置很重要

来自斯坦福和 Meta AI 研究人员的 2023 年开创性论文 「Lost in the Middle: How Language Models Use Long Contexts」 奠定了理解上下文稀释的基础。通过在多文档问答任务上测试包括 GPT-3.5-Turbo、Claude-1.3 和 LongChat 在内的模型,研究人员发现了惊人的 U 形性能曲线:当相关信息出现在上下文的开头或结尾时,LLM 表现更好,但当关键细节隐藏在中间时,准确率急剧下降。

U 形性能曲线

开头
25%
中间
75%
结尾

模型准确率与相关信息在上下文中位置的关系

性能下降非常显著。当相关信息从上下文边缘移动到中心位置时,性能下降超过 20 个百分点。令人震惊的是,当相关信息被放置在 20 个文档的上下文中间时,GPT-3.5-Turbo 在多文档问答任务上的准确率甚至低于其在没有上下文时的表现

注意力黑洞与稀释:基础架构限制

来自 MIT 和 Meta AI 的研究人员在他们的 ICLR 2024 论文 「Efficient Streaming Language Models with Attention Sinks」 中发现了另一块拼图。他们发现初始 token 获得了不成比例的高注意力分数,即使它们在语义上并不重要——他们将这种现象称为注意力黑洞

为什么会发生注意力稀释

1

Softmax 强制注意力总和为 1

添加更多 token 意味着每个 token 平均获得的注意力更少

2

注意力黑洞吸收多余注意力

初始 token 成为「排水口」,无论其相关性如何

3

不相关 token 从相关 token 处窃取注意力

每个额外的文档都会逐渐降低信号质量

经验基准量化性能下降

NVIDIA 的 RULER 基准于 2024 年 4 月发布,表明声称的上下文长度远远超过有效上下文长度:

模型声称上下文有效上下文下降 (4K→128K)
GPT-4128K64K-15.4 pp
Yi-34B200K32K-16.0 pp
Mistral 7B32K16K-79.8 pp
Mixtral 8x7B32K32K-50.4 pp

即使检索完美,上下文长度也会损害性能

2025 年 10 月的 arXiv 论文 「Context Length Alone Hurts LLM Performance Despite Perfect Retrieval」 提供了最反直觉的发现。即使在100% 完美检索相关信息的情况下,随着输入长度增加,性能也会从 13.9% 下降到 85%

关键发现

这一发现表明,上下文稀释不仅仅是注意力或检索问题——上下文长度本身会对 LLM 施加认知负担,无论内容质量如何。

战略性上下文筛选显著提高准确率

研究一致表明,相关上下文优于原始上下文量。Anthropic 2024 年 9 月的论文 「Contextual Retrieval」 表明,仅添加 50-100 个特定于块的解释性上下文 token 就能将检索错误减少 49%。结合重新排序,错误减少了 67%

各模型的性能阈值

  • Llama-3.1-405B32K token 后
  • GPT-4-turbo16K token 后
  • Claude-3-sonnet16K token 后

来源:Databricks Mosaic Research

压缩优势

  • LLMLingua 压缩高达 20 倍
  • 推理损失仅 1.5 pp
  • 推理加速1.7-5.7 倍更快

来源:Microsoft Research LLMLingua

diffray 如何通过多智能体架构解决上下文稀释问题

上下文稀释是当前 Transformer 架构的根本限制。前进的道路不是最大化上下文,而是优化相关性

diffray 的多智能体方法

diffray 不是将所有内容塞进一个上下文窗口,而是将审查分配给 10 个专业智能体——每个智能体都有针对其领域精心筛选的上下文。

单智能体问题
  • 所有代码在一个上下文窗口中
  • 关键安全信息在中间丢失
  • 注意力被不相关代码稀释
  • 性能随仓库增长而下降
多智能体解决方案
  • 安全智能体只获得相关上下文
  • 性能智能体看到基准和关键路径
  • 每个智能体的上下文保持在有效范围内
  • 可扩展到任何仓库大小

通过给每个智能体聚焦的、筛选过的上下文,不超过 25K token,我们保持在有效性能窗口内——同时对整个 PR 进行全面审查。

关键研究来源

发现上下文感知的代码审查

了解 diffray 的多智能体架构如何应用这些研究发现,在没有上下文稀释的情况下提供可操作的代码反馈。

相关文章

AI Code Review Playbook

Data-driven insights from 50+ research sources on code review bottlenecks, AI adoption, and developer psychology.