A guerra de preços dos LLMs: como os tokens ficaram 280 vezes mais baratos

No início de 2024, usar o GPT-4 Turbo custava US$ 60 por milhão de tokens de entrada. Em junho de 2026, modelos com desempenho equivalente ou superior custam US$ 0.14 por milhão (DeepSeek V4 Flash) ou são completamente gratuitos com auto-hospedagem (Llama 4, DeepSeek R2). A queda de preço em dois anos é de 280 vezes — uma das deflações tecnológicas mais rápidas já observadas em qualquer mercado de software.

Como a deflação aconteceu

Três forças se combinaram para derrubar os preços.

A primeira foi a eficiência arquitetural. A arquitetura Mixture of Experts (MoE) tornou possível treinar modelos com 400 bilhões a 1 trilhão de parâmetros totais enquanto ativa apenas 5-15% desses parâmetros por inferência. Um modelo MoE com 400B parâmetros totais e 17B ativos custa aproximadamente o mesmo para inferência que um modelo denso de 17B — mas carrega o conhecimento de um modelo muito maior. DeepSeek, Qwen, Mistral e Meta adotaram essa arquitetura quase universalmente.

A segunda foi a competição chinesa. A DeepSeek demonstrou em janeiro de 2025 que era possível treinar um modelo de fronteira por menos de 6 milhões de dólares — contra estimativas de 100 milhões ou mais para modelos comparáveis da OpenAI e Google. Com custos de treinamento radicalmente menores, a DeepSeek precifica sua API em US$ 0.14/US$ 0.28 por milhão de tokens (entrada/saída), forçando todos os concorrentes a responder.

A terceira foi o open source. Quando Llama 4, DeepSeek R2 e Qwen 3.5 são disponibilizados gratuitamente com licenças que permitem uso comercial, a pressão sobre os modelos proprietários é estrutural. Uma empresa que pode auto-hospedar um modelo de qualidade comparável por US$ 0.0002 por 1.000 tokens tem pouco incentivo para pagar US$ 0.12.

O mapa de preços em 2026

O mercado atual divide-se em quatro camadas:

Ultra-barato (< US$ 0.50/M input): DeepSeek V4 Flash (US$ 0.14), Gemini 3 Flash (US$ 0.50), GPT-4.1 Nano (US$ 0.10), Mistral Small (US$ 0.10). Para tarefas de classificação, sumarização simples, extração estruturada e respostas diretas em escala.

Mid-tier (US$ 1.00-3.00/M input): DeepSeek V4 Pro (US$ 1.74), Grok 4.3 (US$ 1.25), Gemini 3.5 Flash (US$ 1.50), GPT-5 original (US$ 1.25), Claude Sonnet 4.6 (US$ 3.00). Para tarefas de complexidade média, geração de conteúdo de qualidade, análise de documentos.

Premium (US$ 3.00-10.00/M input): Gemini 3.1 Pro (US$ 2.00), Claude Opus 4.7 (US$ 5.00), GPT-5.5 (US$ 5.00). Para raciocínio de fronteira, casos de uso médicos/jurídicos/científicos onde qualidade é crítica.

Ultra-premium: GPT-5.5 Pro (US$ 30.00/M input), Claude Opus 4.8 Fast Mode (US$ 10.00). Para pipelines onde cada token gerado tem alto valor econômico.

Open source (custo de infraestrutura apenas): Llama 4 Scout/Maverick, DeepSeek R2, Qwen 3.5-397B, Gemma 4-31B, Mistral Large 3.

O paradoxo: gasto total subiu

Apesar da queda de 280 vezes no custo por token, os gastos totais das empresas com LLMs cresceram 320% no mesmo período. A explicação é o aumento de consumo: workflows agentivos fazem 10-20 chamadas de LLM por tarefa do usuário, arquiteturas RAG inflam o contexto com documentos de referência, e sistemas de monitoramento contínuo mantêm modelos ativos 24 horas.

A lógica é análoga à da eletricidade barata: quando o custo marginal cai, o consumo aumenta mais do que proporcionalmente. A "tarifa" diminuiu, mas a "conta de luz" subiu.

Roteamento inteligente: a resposta das empresas

O padrão que emergiu para gestão de custo em escala é o roteamento por complexidade. A heurística comum: 70-80% das consultas vão para modelos ultra-baratos (Flash, Nano), 15-20% para mid-tier quando há análise ou geração mais exigente, e 5-10% para premium apenas quando raciocínio de fronteira é necessário.

Ferramentas de roteamento automático como LiteLLM, OpenRouter e BoltAI classificam a complexidade da consulta antes de encaminhá-la, reduzindo custos de produção em 60-80% sem degradação perceptível de qualidade para o usuário final.

O que vem a seguir

As projeções do mercado indicam que os modelos mid-tier de hoje custarão menos de US$ 0.10 por milhão de tokens até o final de 2027. Os modelos premium de fronteira devem se estabilizar entre US$ 1-3. A auto-hospedagem via modelos open source será economicamente competitiva com APIs para qualquer empresa processando mais de 1 bilhão de tokens por mês.

O risco é a consolidação: uma guerra de preços sustentada beneficia quem tem menores custos marginais de infraestrutura. Google (TPUs proprietários), Amazon (Trainium) e Microsoft (Azure scale) têm vantagens estruturais sobre labs independentes. A próxima fase da guerra de preços pode ser decidida não por arquitetura de modelo, mas por custo de datacenter.

Como a deflação aconteceu

O mapa de preços em 2026

O paradoxo: gasto total subiu

Roteamento inteligente: a resposta das empresas

O que vem a seguir

Recibe las publicaciones