La carrera de la ventana de contexto: 1 millón, 10 millones y lo que realmente funciona

En 2023, 4.096 tokens eran el estándar. En 2024, 128K se convirtió en el nuevo mínimo para modelos serios. En 2026, varios modelos anuncian 1 millón de tokens y dos — Gemini 3.1 Pro y Llama 4 Scout — llegan a 10 millones. ¿Es una carrera de marketing o hay utilidad práctica en contextos de esa magnitud?

La respuesta es: depende de dónde está la información en el contexto.

El mapa de las ventanas en mayo de 2026

Modelo	Ventana de Contexto	Tipo
Gemini 3.1 Pro	10 millones de tokens	Cerrado
Llama 4 Scout	10 millones de tokens	Abierto
GPT-5.5	1 millón de tokens	Cerrado
Claude Opus 4.7	1 millón de tokens	Cerrado
DeepSeek V4 Pro	1 millón de tokens	Abierto
Qwen 3.5-397B	1 millón de tokens	Abierto
Mistral Medium 3.5	256K tokens	Abierto
Gemma 4-31B	256K tokens	Abierto

Gemini 3.1 Pro y Llama 4 Scout lideran por un factor de 10x. Para la mayoría de los modelos, 1 millón de tokens es el nuevo estándar de frontera.

El problema del "lost in the middle"

El número anunciado en la ventana de contexto no es el número que el modelo usa de forma confiable. Investigaciones de 2026 muestran un patrón consistente: los modelos tienen una precisión alta para información al inicio y al final del contexto, y una degradación significativa para información en el medio.

La magnitud de la degradación es concreta: para contextos muy largos, la precisión de recuperación de información del medio cae 10-25% comparado con el inicio/fin. En contextos cortos (hasta 128K), el efecto es manejable. En contextos de 1M+, el "medio" es enorme — y potencialmente incluye la mayor parte de la información relevante.

La capacidad efectiva de un modelo que anuncia 200K tokens suele ser de 130K a 140K de forma confiable. Para modelos de 1 millón de tokens, la capacidad efectiva para tareas que exigen recuperación precisa de información distribuida a lo largo del contexto puede estar en el rango de 400-600K.

Esto no vuelve inútil a la ventana larga — pero cambia cómo debe usarse.

Cuándo la ventana larga funciona bien

Hay tres escenarios donde las ventanas de 1M+ de tokens entregan valor real en 2026:

Análisis de documentos largos con preguntas sobre el inicio o el fin. Procesar un informe financiero anual de 800 páginas y hacer preguntas sobre el resumen ejecutivo (inicio) o las notas al pie (fin) funciona bien. Hacer preguntas sobre cláusulas específicas dispersas a lo largo del documento es más arriesgado.

Generación con referencia a un corpus. Cuando el modelo necesita generar texto manteniendo consistencia con un estilo o un conjunto de hechos provistos en el contexto, la posición exacta de la información importa menos — el modelo usa el contexto como referencia difusa, no como base de datos precisa.

Ingesta de codebases. Proveer un repositorio entero en el contexto y hacer preguntas sobre estructura, dependencias o flujo general funciona mejor que recuperar líneas específicas de archivos del medio del contexto. Para revisión de arquitectura y análisis de alto nivel, funciona.

Cuándo la ventana larga falla

Recuperación precisa de información distribuida. Si necesitas que el modelo encuentre todas las menciones a una cláusula específica esparcidas por 500 páginas de contrato, el modelo de contexto largo va a fallar en parte de ellas — especialmente en las del medio. Para ese caso, RAG (Retrieval Augmented Generation) con índice de búsqueda sigue siendo más confiable.

Razonamiento sobre múltiples fuentes de gran extensión. Comparar dos documentos largos donde información relevante está distribuida en ambos exige que el modelo mantenga atención en múltiples puntos distantes del contexto simultáneamente. La memoria de trabajo efectiva de los modelos no escala linealmente con el tamaño de la ventana.

Codebases de producción completos. Anthropic notó que los workflows que dependen de "poner todo en el contexto" chocan con un límite práctico: la mayoría de los codebases de producción de empresas tiene más código del que soportan 1-2 millones de tokens. E incluso dentro del límite, la degradación en el medio compromete análisis que dependen de archivos en el centro del contexto.

El costo del contexto largo

Hay un detalle económico que los anuncios de ventana larga frecuentemente omiten: cargos por contexto por encima de ciertos umbrales.

Anthropic y Google aplican surcharges cuando las requests superan los 200K tokens. El surcharge se aplica al total de la request, no solo a los tokens por encima del límite. Para una llamada con 500K tokens de contexto que normalmente costaría $2,50, el costo puede ser 2-3x mayor dependiendo de las políticas de precio vigentes.

Para uso ocasional, no es un problema. Para pipelines de producción que hacen cientos de llamadas por hora con contextos largos, el costo puede ser la diferencia entre la viabilidad y la inviabilidad del producto.

La alternativa: RAG sigue siendo relevante

Dado el comportamiento real de los modelos con contextos largos, RAG (Retrieval Augmented Generation) sigue siendo relevante en 2026 — no porque la ventana larga no funcione, sino porque para casos específicos funciona mejor.

RAG indexa documentos externamente, busca los fragmentos más relevantes y provee solo esos fragmentos en el contexto. El modelo recibe 2-10K tokens de contexto altamente relevante en lugar de 500K tokens donde la información relevante está diluida. Para recuperación precisa y determinística de información, la combinación de índice de búsqueda + ventana corta supera a ventana larga + búsqueda por atención.

El modelo ideal de 2026 no es contexto largo O RAG — es saber cuál usar para cuál tarea. Contexto largo para análisis holístico y generación con referencia. RAG para recuperación precisa de información distribuida.

El número que importa

En lugar de enfocarse en la ventana máxima anunciada, la pregunta relevante es: ¿cuál es la ventana efectiva del modelo para la tarea específica que necesitas ejecutar?

Modelos con 128K de ventana efectiva confiable pueden superar a modelos con 1M de ventana anunciada pero 300K efectiva, dependiendo del caso de uso. Los benchmarks de ventana de contexto que miden recuperación de información en el medio — no solo en el inicio y el fin — son los que revelan la capacidad real.

La carrera de ventanas continúa. Pero en 2026, la medida que importa es el desempeño en needle-in-a-haystack en el centro del contexto — no el número en el encabezado del press release.