Глубокое исследование

Размывание контекста: почему больше токенов
может означать меньше производительности ИИ

Отправка всего кода в LLM не делает его умнее — это сбивает его с толку. Исследования показывают предсказуемую деградацию производительности при увеличении контекстного окна.

24 декабря 2025
12 мин чтения

Исследования Стэнфорда, Google, Anthropic и Meta показывают, что большие языковые модели испытывают предсказуемую деградацию производительности, когда контекстные окна содержат слишком много информации. Это явление, известное как размывание контекста, заставляет модели «терять» критически важную информацию, скрытую в длинных промптах, с падением точности от 13,9% до 85% по мере увеличения контекста — даже когда модель имеет идеальный доступ к релевантным данным.

13,9-85%

Падение точности при увеличении контекста

20+ п.п.

Падение производительности при информации в середине

49-67%

Сокращение ошибок с контекстуальным поиском

Феномен «Потеряно в середине»: почему позиция имеет значение

Основополагающая статья 2023 года «Lost in the Middle: How Language Models Use Long Contexts» исследователей из Стэнфорда и Meta AI заложила фундаментальное понимание размывания контекста. Тестируя модели, включая GPT-3.5-Turbo, Claude-1.3 и LongChat, на задачах ответов на вопросы по нескольким документам, исследователи обнаружили поразительную U-образную кривую производительности: LLM работают лучше, когда релевантная информация появляется в начале или конце контекста, но точность резко падает, когда критические детали скрыты в середине.

U-образная кривая производительности

Начало
25%
Середина
75%
Конец

Точность модели в зависимости от позиции релевантной информации в контексте

Деградация существенна. Производительность падает более чем на 20 процентных пунктов, когда релевантная информация перемещается от краёв контекста к центральным позициям. В поразительном открытии точность GPT-3.5-Turbo на задачах ответов по нескольким документам упала ниже его производительности без контекста, когда релевантная информация была размещена в середине контекста при наличии 20 документов.

Поглотители внимания и размывание: фундаментальные архитектурные ограничения

Исследователи из MIT и Meta AI обнаружили ещё одну часть головоломки в своей статье ICLR 2024 «Efficient Streaming Language Models with Attention Sinks» . Они выяснили, что начальные токены получают непропорционально высокие оценки внимания, даже когда они семантически не важны — явление, которое они назвали поглотителями внимания.

Почему происходит размывание внимания

1

Softmax заставляет сумму внимания равняться 1

Добавление большего количества токенов означает, что каждый токен получает меньше внимания в среднем

2

Поглотители внимания поглощают избыточное внимание

Первые токены становятся «сливами» независимо от их релевантности

3

Нерелевантные токены крадут внимание у релевантных

Каждый дополнительный документ постепенно ухудшает качество сигнала

Эмпирические бенчмарки количественно оценивают падение производительности

Бенчмарк RULER от NVIDIA , опубликованный в апреле 2024 года, показывает, что заявленные длины контекста значительно превышают эффективные длины контекста:

МодельЗаявленный контекстЭффективный контекстДеградация (4K→128K)
GPT-4128K64K-15,4 п.п.
Yi-34B200K32K-16,0 п.п.
Mistral 7B32K16K-79,8 п.п.
Mixtral 8x7B32K32K-50,4 п.п.

Длина контекста вредит производительности даже при идеальном поиске

Статья arXiv от октября 2025 года «Context Length Alone Hurts LLM Performance Despite Perfect Retrieval» дала самое контринтуитивное открытие. Даже при 100% идеальном поиске релевантной информации производительность деградирует от 13,9% до 85% по мере увеличения длины входных данных.

Критическое открытие

Это открытие предполагает, что размывание контекста — это не чисто проблема внимания или поиска — сама по себе длина контекста накладывает когнитивный налог на LLM независимо от качества контента.

Стратегическая курация контекста значительно улучшает точность

Исследования последовательно показывают, что релевантный контекст превосходит сырой объём контекста. Статья «Contextual Retrieval» от Anthropic (сентябрь 2024) продемонстрировала, что добавление всего 50-100 токенов пояснительного контекста, специфичного для чанка, сокращает ошибки поиска на 49%. В сочетании с переранжированием ошибки сократились на 67%.

Пороги производительности по моделям

  • Llama-3.1-405Bпосле 32K токенов
  • GPT-4-turboпосле 16K токенов
  • Claude-3-sonnetпосле 16K токенов

Источник: Databricks Mosaic Research

Преимущества сжатия

  • Сжатие LLMLinguaдо 20x
  • Потеря в рассужденияхвсего 1,5 п.п.
  • Ускорение инференса1,7-5,7x быстрее

Источник: Microsoft Research LLMLingua

Как diffray решает проблему размывания контекста с помощью мультиагентной архитектуры

Размывание контекста представляет собой фундаментальное ограничение текущих архитектур трансформеров. Путь вперёд — не в максимизации контекста, а в оптимизации релевантности.

Мультиагентный подход diffray

Вместо того чтобы сваливать всё в одно контекстное окно, diffray распределяет ревью между 10 специализированными агентами — каждый с точно подобранным контекстом для своей области.

Проблема одного агента
  • Весь код в одном контекстном окне
  • Критическая информация о безопасности теряется в середине
  • Внимание размывается на несвязанный код
  • Производительность падает с ростом репозитория
Мультиагентное решение
  • Агент безопасности получает только релевантный контекст
  • Агент производительности видит бенчмарки и критические пути
  • Контекст каждого агента остаётся в эффективных пределах
  • Масштабируется на любой размер репозитория

Давая каждому агенту фокусированный, курированный контекст до 25K токенов, мы остаёмся в пределах эффективного окна производительности — при этом проводя исчерпывающее ревью всего PR.

Ключевые источники исследований

Откройте для себя контекстно-осознанное код-ревью

Узнайте, как мультиагентная архитектура diffray применяет эти исследовательские открытия для предоставления практичных отзывов на код без размывания контекста.

Похожие статьи

AI Code Review Playbook

Data-driven insights from 50+ research sources on code review bottlenecks, AI adoption, and developer psychology.