La guerra de precios de los LLMs: cómo los tokens se volvieron 280 veces más baratos

A inicios de 2024, usar GPT-4 Turbo costaba US$ 60 por millón de tokens de entrada. En junio de 2026, modelos con desempeño equivalente o superior cuestan US$ 0.14 por millón (DeepSeek V4 Flash) o son completamente gratuitos con auto-alojamiento (Llama 4, DeepSeek R2). La caída de precio en dos años es de 280 veces — una de las deflaciones tecnológicas más rápidas jamás observadas en cualquier mercado de software.

Cómo ocurrió la deflación

Tres fuerzas se combinaron para derribar los precios.

La primera fue la eficiencia arquitectural. La arquitectura Mixture of Experts (MoE) hizo posible entrenar modelos con 400 mil millones a 1 billón de parámetros totales mientras activa solo el 5-15% de esos parámetros por inferencia. Un modelo MoE con 400B parámetros totales y 17B activos cuesta aproximadamente lo mismo para inferencia que un modelo denso de 17B — pero carga el conocimiento de un modelo mucho mayor. DeepSeek, Qwen, Mistral y Meta adoptaron esta arquitectura casi universalmente.

La segunda fue la competencia china. DeepSeek demostró en enero de 2025 que era posible entrenar un modelo de frontera por menos de 6 millones de dólares — contra estimaciones de 100 millones o más para modelos comparables de OpenAI y Google. Con costos de entrenamiento radicalmente menores, DeepSeek fija el precio de su API en US$ 0.14/US$ 0.28 por millón de tokens (entrada/salida), forzando a todos los competidores a responder.

La tercera fue el open source. Cuando Llama 4, DeepSeek R2 y Qwen 3.5 se ponen a disposición gratuitamente con licencias que permiten uso comercial, la presión sobre los modelos propietarios es estructural. Una empresa que puede auto-alojar un modelo de calidad comparable por US$ 0.0002 por 1.000 tokens tiene poco incentivo para pagar US$ 0.12.

El mapa de precios en 2026

El mercado actual se divide en cuatro capas:

Ultra-barato (< US$ 0.50/M input): DeepSeek V4 Flash (US$ 0.14), Gemini 3 Flash (US$ 0.50), GPT-4.1 Nano (US$ 0.10), Mistral Small (US$ 0.10). Para tareas de clasificación, sumarización simple, extracción estructurada y respuestas directas a escala.

Mid-tier (US$ 1.00-3.00/M input): DeepSeek V4 Pro (US$ 1.74), Grok 4.3 (US$ 1.25), Gemini 3.5 Flash (US$ 1.50), GPT-5 original (US$ 1.25), Claude Sonnet 4.6 (US$ 3.00). Para tareas de complejidad media, generación de contenido de calidad, análisis de documentos.

Premium (US$ 3.00-10.00/M input): Gemini 3.1 Pro (US$ 2.00), Claude Opus 4.7 (US$ 5.00), GPT-5.5 (US$ 5.00). Para razonamiento de frontera, casos de uso médicos/jurídicos/científicos donde la calidad es crítica.

Ultra-premium: GPT-5.5 Pro (US$ 30.00/M input), Claude Opus 4.8 Fast Mode (US$ 10.00). Para pipelines donde cada token generado tiene alto valor económico.

Open source (costo de infraestructura solamente): Llama 4 Scout/Maverick, DeepSeek R2, Qwen 3.5-397B, Gemma 4-31B, Mistral Large 3.

La paradoja: el gasto total subió

A pesar de la caída de 280 veces en el costo por token, los gastos totales de las empresas con LLMs crecieron 320% en el mismo período. La explicación es el aumento de consumo: los workflows agentivos hacen 10-20 llamadas de LLM por tarea del usuario, las arquitecturas RAG inflan el contexto con documentos de referencia, y los sistemas de monitoreo continuo mantienen los modelos activos 24 horas.

La lógica es análoga a la de la electricidad barata: cuando el costo marginal cae, el consumo aumenta más que proporcionalmente. La "tarifa" disminuyó, pero la "cuenta de luz" subió.

Enrutamiento inteligente: la respuesta de las empresas

El patrón que emergió para la gestión de costo a escala es el enrutamiento por complejidad. La heurística común: el 70-80% de las consultas van a modelos ultra-baratos (Flash, Nano), el 15-20% a mid-tier cuando hay análisis o generación más exigente, y el 5-10% a premium solo cuando es necesario razonamiento de frontera.

Las herramientas de enrutamiento automático como LiteLLM, OpenRouter y BoltAI clasifican la complejidad de la consulta antes de encaminarla, reduciendo costos de producción en 60-80% sin degradación perceptible de calidad para el usuario final.

Lo que viene a continuación

Las proyecciones del mercado indican que los modelos mid-tier de hoy costarán menos de US$ 0.10 por millón de tokens hacia finales de 2027. Los modelos premium de frontera deben estabilizarse entre US$ 1-3. El auto-alojamiento vía modelos open source será económicamente competitivo con las APIs para cualquier empresa que procese más de 1 mil millones de tokens por mes.

El riesgo es la consolidación: una guerra de precios sostenida beneficia a quien tiene menores costos marginales de infraestructura. Google (TPUs propietarias), Amazon (Trainium) y Microsoft (Azure scale) tienen ventajas estructurales sobre los labs independientes. La próxima fase de la guerra de precios puede decidirse no por la arquitectura del modelo, sino por el costo de datacenter.

Cómo ocurrió la deflación

El mapa de precios en 2026

La paradoja: el gasto total subió

Enrutamiento inteligente: la respuesta de las empresas

Lo que viene a continuación

Get the latest posts