← Blog

A guerra de preços dos LLMs: como os tokens ficaram 280 vezes mais baratos

10 jun 2026

No início de 2024, usar o GPT-4 Turbo custava US$ 60 por milhão de tokens de entrada. Em junho de 2026, modelos com desempenho equivalente ou superior custam US$ 0.14 por milhão (DeepSeek V4 Flash) ou são completamente gratuitos com auto-hospedagem (Llama 4, DeepSeek R2). A queda de preço em dois anos é de 280 vezes — uma das deflações tecnológicas mais rápidas já observadas em qualquer mercado de software.

Como a deflação aconteceu

Três forças se combinaram para derrubar os preços.

A primeira foi a eficiência arquitetural. A arquitetura Mixture of Experts (MoE) tornou possível treinar modelos com 400 bilhões a 1 trilhão de parâmetros totais enquanto ativa apenas 5-15% desses parâmetros por inferência. Um modelo MoE com 400B parâmetros totais e 17B ativos custa aproximadamente o mesmo para inferência que um modelo denso de 17B — mas carrega o conhecimento de um modelo muito maior. DeepSeek, Qwen, Mistral e Meta adotaram essa arquitetura quase universalmente.

A segunda foi a competição chinesa. A DeepSeek demonstrou em janeiro de 2025 que era possível treinar um modelo de fronteira por menos de 6 milhões de dólares — contra estimativas de 100 milhões ou mais para modelos comparáveis da OpenAI e Google. Com custos de treinamento radicalmente menores, a DeepSeek precifica sua API em US$ 0.14/US$ 0.28 por milhão de tokens (entrada/saída), forçando todos os concorrentes a responder.

A terceira foi o open source. Quando Llama 4, DeepSeek R2 e Qwen 3.5 são disponibilizados gratuitamente com licenças que permitem uso comercial, a pressão sobre os modelos proprietários é estrutural. Uma empresa que pode auto-hospedar um modelo de qualidade comparável por US$ 0.0002 por 1.000 tokens tem pouco incentivo para pagar US$ 0.12.

O mapa de preços em 2026

O mercado atual divide-se em quatro camadas:

Ultra-barato (< US$ 0.50/M input): DeepSeek V4 Flash (US$ 0.14), Gemini 3 Flash (US$ 0.50), GPT-4.1 Nano (US$ 0.10), Mistral Small (US$ 0.10). Para tarefas de classificação, sumarização simples, extração estruturada e respostas diretas em escala.

Mid-tier (US$ 1.00-3.00/M input): DeepSeek V4 Pro (US$ 1.74), Grok 4.3 (US$ 1.25), Gemini 3.5 Flash (US$ 1.50), GPT-5 original (US$ 1.25), Claude Sonnet 4.6 (US$ 3.00). Para tarefas de complexidade média, geração de conteúdo de qualidade, análise de documentos.

Premium (US$ 3.00-10.00/M input): Gemini 3.1 Pro (US$ 2.00), Claude Opus 4.7 (US$ 5.00), GPT-5.5 (US$ 5.00). Para raciocínio de fronteira, casos de uso médicos/jurídicos/científicos onde qualidade é crítica.

Ultra-premium: GPT-5.5 Pro (US$ 30.00/M input), Claude Opus 4.8 Fast Mode (US$ 10.00). Para pipelines onde cada token gerado tem alto valor econômico.

Open source (custo de infraestrutura apenas): Llama 4 Scout/Maverick, DeepSeek R2, Qwen 3.5-397B, Gemma 4-31B, Mistral Large 3.

O paradoxo: gasto total subiu

Apesar da queda de 280 vezes no custo por token, os gastos totais das empresas com LLMs cresceram 320% no mesmo período. A explicação é o aumento de consumo: workflows agentivos fazem 10-20 chamadas de LLM por tarefa do usuário, arquiteturas RAG inflam o contexto com documentos de referência, e sistemas de monitoramento contínuo mantêm modelos ativos 24 horas.

A lógica é análoga à da eletricidade barata: quando o custo marginal cai, o consumo aumenta mais do que proporcionalmente. A "tarifa" diminuiu, mas a "conta de luz" subiu.

Roteamento inteligente: a resposta das empresas

O padrão que emergiu para gestão de custo em escala é o roteamento por complexidade. A heurística comum: 70-80% das consultas vão para modelos ultra-baratos (Flash, Nano), 15-20% para mid-tier quando há análise ou geração mais exigente, e 5-10% para premium apenas quando raciocínio de fronteira é necessário.

Ferramentas de roteamento automático como LiteLLM, OpenRouter e BoltAI classificam a complexidade da consulta antes de encaminhá-la, reduzindo custos de produção em 60-80% sem degradação perceptível de qualidade para o usuário final.

O que vem a seguir

As projeções do mercado indicam que os modelos mid-tier de hoje custarão menos de US$ 0.10 por milhão de tokens até o final de 2027. Os modelos premium de fronteira devem se estabilizar entre US$ 1-3. A auto-hospedagem via modelos open source será economicamente competitiva com APIs para qualquer empresa processando mais de 1 bilhão de tokens por mês.

O risco é a consolidação: uma guerra de preços sustentada beneficia quem tem menores custos marginais de infraestrutura. Google (TPUs proprietários), Amazon (Trainium) e Microsoft (Azure scale) têm vantagens estruturais sobre labs independentes. A próxima fase da guerra de preços pode ser decidida não por arquitetura de modelo, mas por custo de datacenter.

Get the latest posts

New articles on AI, Vibe Code and Builder Code — by email or Telegram.

or
Get it on Telegram

By subscribing, you agree to receive emails/messages and to the Privacy Policy. You can unsubscribe anytime. No spam.