Investigación Profunda

Dilución de Contexto: Por Qué Más Tokens
Pueden Significar Peor Rendimiento de IA

Enviar todo tu código a un LLM no lo hace más inteligente—lo confunde. La investigación revela una degradación predecible del rendimiento con ventanas de contexto crecientes.

24 de diciembre de 2025
12 min de lectura

Investigaciones de Stanford, Google, Anthropic y Meta revelan que los Modelos de Lenguaje Grande sufren una degradación predecible del rendimiento cuando las ventanas de contexto contienen demasiada información. Este fenómeno, conocido como dilución de contexto, causa que los modelos "pierdan" información crítica enterrada en prompts extensos, con caídas de precisión del 13.9% al 85% a medida que el contexto crece—incluso cuando el modelo tiene acceso perfecto a los datos relevantes.

13.9-85%

Caída de precisión al aumentar la longitud del contexto

20+ pts

Caída de rendimiento cuando la info está en el medio

49-67%

Reducción de fallos con recuperación contextual

El Fenómeno "Lost in the Middle": Por Qué la Posición Importa

El artículo seminal de 2023 "Lost in the Middle: How Language Models Use Long Contexts" de investigadores de Stanford y Meta AI estableció la comprensión fundamental de la dilución de contexto. Probando modelos incluyendo GPT-3.5-Turbo, Claude-1.3 y LongChat en tareas de QA multi-documento, los investigadores descubrieron una sorprendente curva de rendimiento en forma de U: los LLMs rinden mejor cuando la información relevante aparece al principio o al final del contexto, pero la precisión se desploma cuando los detalles críticos están enterrados en el medio.

Curva de Rendimiento en Forma de U

Inicio
25%
Medio
75%
Final

Precisión del modelo según la posición de la información relevante en el contexto

La degradación es sustancial. El rendimiento cae más de 20 puntos porcentuales cuando la información relevante se mueve de los bordes del contexto a posiciones intermedias. En un hallazgo sorprendente, la precisión de GPT-3.5-Turbo en QA multi-documento cayó por debajo de su rendimiento sin contexto (sin contexto alguno) cuando la información relevante se colocaba a mitad del contexto con 20 documentos presentes. Esto significa que agregar contexto perjudicó activamente al modelo—un resultado contraintuitivo que desafía la suposición de que más información siempre ayuda.

La investigación de seguimiento publicada en ACL Findings 2024, "Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization" , identificó la causa raíz: un sesgo de atención posicional intrínseco en forma de U donde los LLMs asignan mayores pesos de atención a los tokens del principio y del final independientemente de su relevancia semántica. El artículo demostró que los LLMs pueden atender al contenido relevante del medio pero son sistemáticamente distraídos por el sesgo posicional—y propuso mecanismos de calibración que mejoraron el rendimiento de RAG hasta en 15 puntos porcentuales.

Sumideros de Atención y Dilución: Límites Arquitectónicos Fundamentales

Investigadores del MIT y Meta AI descubrieron otra pieza del rompecabezas en su artículo de ICLR 2024 "Efficient Streaming Language Models with Attention Sinks" . Descubrieron que los tokens iniciales reciben puntuaciones de atención desproporcionadamente altas incluso cuando son semánticamente irrelevantes—un fenómeno que denominaron sumideros de atención. Debido a que la normalización softmax obliga a que los pesos de atención sumen 1, los modelos deben "volcar" atención en algún lugar cuando ningún token es altamente relevante, y los primeros tokens se convierten en receptáculos predeterminados.

Por Qué Ocurre la Dilución de Atención

1

Softmax obliga a que la atención sume 1

Agregar más tokens significa que cada token recibe menos atención en promedio

2

Los sumideros de atención absorben el exceso de atención

Los primeros tokens se convierten en "vertederos" independientemente de su relevancia

3

Los tokens irrelevantes roban atención de los relevantes

Cada documento adicional degrada progresivamente la calidad de la señal

Esta peculiaridad arquitectónica se combina con lo que los investigadores de Meta AI llaman dilución de atención: dado que la atención es de suma cero, agregar más tokens aumenta monotónicamente el ruido en las representaciones. Cada documento irrelevante en el contexto roba atención de los relevantes, degradando progresivamente la calidad de la señal. El artículo de 2024 "Core Context Aware Transformers" confirmó que cuando la longitud del contexto alcanza 128K tokens, la información redundante aumenta sustancialmente, y la distribución de puntuaciones de atención se vuelve altamente dispersa con puntuaciones desproporcionadas concentradas en tokens limitados.

Quizás lo más sorprendente es el hallazgo de Google en ICML 2023 de que los LLMs pueden ser fácilmente distraídos por contexto irrelevante . Usando su benchmark GSM-IC (problemas matemáticos con información irrelevante insertada), mostraron que la precisión del modelo disminuye dramáticamente cuando aparece información irrelevante—pero temáticamente relacionada—en el prompt. Factores como nombres de roles superpuestos, números en rango y distractores relevantes al tema todos desencadenan degradación del rendimiento.

Benchmarks Empíricos Cuantifican el Precipicio de Rendimiento

La prueba "Needle in a Haystack" (NIAH), creada por el investigador Greg Kamradt en 2023, se convirtió en la evaluación estándar para recuperación de contexto largo. La metodología coloca un hecho aleatorio (la "aguja") en posiciones variables dentro de texto distractor (el "pajar") y mide si los modelos pueden recuperarlo. Aunque modelos insignia como Gemini 1.5 Pro logran >99.7% de precisión en NIAH estándar hasta 1 millón de tokens, este benchmark subestima los desafíos del mundo real porque depende de coincidencia literal.

El benchmark RULER de NVIDIA , publicado en abril de 2024, extiende NIAH con tareas más realistas: rastreo multi-salto, agregación y respuesta a preguntas. Los resultados revelan que las longitudes de contexto declaradas exceden con creces las longitudes de contexto efectivas:

ModeloContexto DeclaradoContexto EfectivoDegradación (4K→128K)
GPT-4128K64K-15.4 puntos
Yi-34B200K32K-16.0 puntos
Mistral 7B32K16K-79.8 puntos
Mixtral 8x7B32K32K-50.4 puntos

El benchmark NoLiMa de Adobe Research (febrero 2025) fue más allá, probando la recuperación cuando las preguntas y el contenido objetivo comparten mínima superposición léxica—más representativo de consultas reales. Los resultados fueron aleccionadores: 11 de 12 modelos cayeron por debajo del 50% de su rendimiento base con solo 32K tokens. Incluso GPT-4o cayó del 99.3% al 69.7% de precisión, demostrando que los mecanismos de atención luchan significativamente sin pistas léxicas literales para guiar la recuperación.

La Longitud del Contexto Perjudica el Rendimiento Incluso con Recuperación Perfecta

Un sorprendente artículo de arXiv de octubre 2025, "Context Length Alone Hurts LLM Performance Despite Perfect Retrieval" , entregó el hallazgo más contraintuitivo hasta ahora. Incluso con recuperación 100% perfecta de información relevante, el rendimiento se degrada del 13.9% al 85% a medida que aumenta la longitud de entrada. La degradación ocurre incluso cuando los tokens irrelevantes se reemplazan con espacios en blanco mínimamente distractores—y persiste incluso cuando todos los tokens irrelevantes están enmascarados y los modelos atienden solo al contenido relevante.

Hallazgo Crítico

Este hallazgo sugiere que la dilución de contexto no es puramente un problema de atención o recuperación—la mera longitud del contexto impone un impuesto cognitivo a los LLMs independientemente de la calidad del contenido. Los investigadores encontraron una mitigación: solicitar a los modelos que reciten la evidencia recuperada antes de resolver problemas mejoró el rendimiento de GPT-4o en un 4% en el benchmark RULER, sugiriendo que los pasos de razonamiento explícito ayudan a los modelos a consolidar información relevante.

El estudio "Context Rot" de Chroma de julio 2025 evaluó 18 LLMs incluyendo GPT-4.1, Claude 4 y Gemini 2.5. Sus hallazgos confirmaron que el rendimiento se degrada consistentemente con el aumento de la longitud de entrada en todos los modelos. Contraintuitivamente, los pajares mezclados (desestructurados) produjeron mejor rendimiento que los coherentes—sugiriendo que los patrones estructurales en el texto pueden realmente interferir con los mecanismos de atención. También encontraron que diferentes modelos fallan de manera diferente: los modelos Claude tienden hacia la abstención conservadora mientras que los modelos GPT muestran tasas de alucinación más altas cuando hay distractores presentes.

La Curación Estratégica del Contexto Mejora Dramáticamente la Precisión

La investigación muestra consistentemente que el contexto relevante supera a la cantidad bruta de contexto. El artículo "Contextual Retrieval" de Anthropic de septiembre 2024 demostró que agregar solo 50-100 tokens de contexto explicativo específico del fragmento reduce los fallos de recuperación en un 49% (del 5.7% al 2.9%). Combinado con reranking, los fallos cayeron un 67% (al 1.9%). La técnica—anteponer metadatos contextuales a cada fragmento antes de la incrustación—reconoce que los fragmentos aislados carecen de contexto suficiente por sí solos.

Precipicios de Rendimiento por Modelo

  • Llama-3.1-405Bdespués de 32K tokens
  • GPT-4-turbodespués de 16K tokens
  • Claude-3-sonnetdespués de 16K tokens

Fuente: Databricks Mosaic Research

Beneficios de la Compresión

  • Compresión LLMLinguahasta 20x
  • Pérdida de razonamientosolo 1.5 puntos
  • Aceleración de inferencia1.7-5.7x más rápido

Fuente: Microsoft Research LLMLingua

Implicaciones Prácticas para Aplicaciones con IA

La investigación señala estrategias claras para construir aplicaciones LLM efectivas:

La posición importa críticamente

Coloca la información más relevante al principio o al final de los prompts. Nunca entierres contexto crítico en el medio de entradas largas.

Menos es a menudo más

El contexto curado y relevante supera consistentemente al contexto comprehensivo. Agregar información irrelevante puede empujar la precisión por debajo de las líneas base sin contexto.

Prueba tu ventana de contexto efectiva

Las longitudes de contexto declaradas rara vez coinciden con el rendimiento efectivo. Determina empíricamente dónde tu combinación específica de modelo-tarea comienza a degradarse.

Implementa recuperación híbrida con reranking

Combina incrustaciones semánticas con coincidencia léxica (BM25), luego reordena los mejores resultados antes de pasarlos al LLM—esta combinación reduce los fallos de recuperación en un 67%.

Considera técnicas de compresión

Para escenarios de contexto largo, la compresión de prompts puede mantener la calidad mientras reduce dramáticamente la latencia y el costo.

Cómo diffray Resuelve la Dilución de Contexto con Arquitectura Multi-Agente

La dilución de contexto representa una limitación fundamental de las arquitecturas transformer actuales, no meramente un descuido de ingeniería a ser parcheado. Las propiedades inherentes del mecanismo de atención—sesgo posicional, sumideros de atención y distribución de suma cero—crean degradación sistemática a medida que el contexto crece. Mientras las ventanas de contexto de los modelos se han expandido de 4K a 10 millones de tokens, la utilización efectiva está muy por detrás de la capacidad declarada.

El camino a seguir no es maximizar el contexto—es optimizar la relevancia. La investigación demuestra consistentemente que la curación estratégica del contexto supera a la inclusión por fuerza bruta por márgenes sustanciales. Para aplicaciones que demandan alta precisión, la evidencia favorece fuertemente el contexto selectivo y bien posicionado sobre los volcados comprehensivos.

El Enfoque Multi-Agente de diffray

En lugar de volcar todo en una sola ventana de contexto, diffray distribuye la revisión entre 10 agentes especializados—cada uno con contexto precisamente curado para su dominio.

Problema del Agente Único
  • • Todo el código en una ventana de contexto
  • • Info crítica de seguridad perdida en el medio
  • • Atención diluida entre código no relacionado
  • • El rendimiento se degrada con el tamaño del repo
Solución Multi-Agente
  • • El agente de seguridad solo recibe contexto relevante de seguridad
  • • El agente de rendimiento ve benchmarks y rutas críticas
  • • El contexto de cada agente permanece dentro de límites efectivos
  • • Escala a cualquier tamaño de repositorio

Al dar a cada agente contexto enfocado y curado bajo 25K tokens, nos mantenemos bien dentro de la ventana de rendimiento efectivo que la investigación identifica—mientras revisamos el PR completo de manera comprehensiva.

Fuentes de Investigación Clave

Experimenta la Revisión de Código Consciente del Contexto

Descubre cómo la arquitectura multi-agente de diffray aplica estos hallazgos de investigación—contexto curado, agentes especializados y atención optimizada—para entregar feedback de revisión de código accionable sin dilución de contexto.

Related Articles

AI Code Review Playbook

Data-driven insights from 50+ research sources on code review bottlenecks, AI adoption, and developer psychology.