上下文稀释:为什么更多 Token
可能意味着更低的 AI 性能
将所有代码发送给 LLM 并不会让它更智能——而是会让它困惑。研究表明,随着上下文窗口增加,性能会出现可预测的下降。
斯坦福、Google、Anthropic 和 Meta 的研究表明,当上下文窗口包含过多信息时,大型语言模型会出现可预测的性能下降。这种被称为上下文稀释的现象会导致模型在长提示中「丢失」关键信息,随着上下文增加,准确率下降13.9% 到 85%——即使模型能完美访问相关数据。
13.9-85%
随上下文增加的准确率下降
20+ pp
信息位于中间时的性能下降
49-67%
通过上下文检索减少的错误
「迷失在中间」现象:为什么位置很重要
来自斯坦福和 Meta AI 研究人员的 2023 年开创性论文 「Lost in the Middle: How Language Models Use Long Contexts」 奠定了理解上下文稀释的基础。通过在多文档问答任务上测试包括 GPT-3.5-Turbo、Claude-1.3 和 LongChat 在内的模型,研究人员发现了惊人的 U 形性能曲线:当相关信息出现在上下文的开头或结尾时,LLM 表现更好,但当关键细节隐藏在中间时,准确率急剧下降。
U 形性能曲线
模型准确率与相关信息在上下文中位置的关系
性能下降非常显著。当相关信息从上下文边缘移动到中心位置时,性能下降超过 20 个百分点。令人震惊的是,当相关信息被放置在 20 个文档的上下文中间时,GPT-3.5-Turbo 在多文档问答任务上的准确率甚至低于其在没有上下文时的表现。
注意力黑洞与稀释:基础架构限制
来自 MIT 和 Meta AI 的研究人员在他们的 ICLR 2024 论文 「Efficient Streaming Language Models with Attention Sinks」 中发现了另一块拼图。他们发现初始 token 获得了不成比例的高注意力分数,即使它们在语义上并不重要——他们将这种现象称为注意力黑洞。
为什么会发生注意力稀释
Softmax 强制注意力总和为 1
添加更多 token 意味着每个 token 平均获得的注意力更少
注意力黑洞吸收多余注意力
初始 token 成为「排水口」,无论其相关性如何
不相关 token 从相关 token 处窃取注意力
每个额外的文档都会逐渐降低信号质量
经验基准量化性能下降
NVIDIA 的 RULER 基准于 2024 年 4 月发布,表明声称的上下文长度远远超过有效上下文长度:
| 模型 | 声称上下文 | 有效上下文 | 下降 (4K→128K) |
|---|---|---|---|
| GPT-4 | 128K | 64K | -15.4 pp |
| Yi-34B | 200K | 32K | -16.0 pp |
| Mistral 7B | 32K | 16K | -79.8 pp |
| Mixtral 8x7B | 32K | 32K | -50.4 pp |
即使检索完美,上下文长度也会损害性能
2025 年 10 月的 arXiv 论文 「Context Length Alone Hurts LLM Performance Despite Perfect Retrieval」 提供了最反直觉的发现。即使在100% 完美检索相关信息的情况下,随着输入长度增加,性能也会从 13.9% 下降到 85%。
关键发现
这一发现表明,上下文稀释不仅仅是注意力或检索问题——上下文长度本身会对 LLM 施加认知负担,无论内容质量如何。
战略性上下文筛选显著提高准确率
研究一致表明,相关上下文优于原始上下文量。Anthropic 2024 年 9 月的论文 「Contextual Retrieval」 表明,仅添加 50-100 个特定于块的解释性上下文 token 就能将检索错误减少 49%。结合重新排序,错误减少了 67%。
各模型的性能阈值
- Llama-3.1-405B32K token 后
- GPT-4-turbo16K token 后
- Claude-3-sonnet16K token 后
diffray 如何通过多智能体架构解决上下文稀释问题
上下文稀释是当前 Transformer 架构的根本限制。前进的道路不是最大化上下文,而是优化相关性。
diffray 的多智能体方法
diffray 不是将所有内容塞进一个上下文窗口,而是将审查分配给 10 个专业智能体——每个智能体都有针对其领域精心筛选的上下文。
单智能体问题
- 所有代码在一个上下文窗口中
- 关键安全信息在中间丢失
- 注意力被不相关代码稀释
- 性能随仓库增长而下降
多智能体解决方案
- 安全智能体只获得相关上下文
- 性能智能体看到基准和关键路径
- 每个智能体的上下文保持在有效范围内
- 可扩展到任何仓库大小
通过给每个智能体聚焦的、筛选过的上下文,不超过 25K token,我们保持在有效性能窗口内——同时对整个 PR 进行全面审查。