GPT-5: o modelo que redefiniu o que significa errar menos

Quando a OpenAI lançou o GPT-5 em agosto de 2025, o dado que mais chamou atenção não foi o benchmark de matemática — foi a redução de alucinações. Em comparação com o GPT-4o, o GPT-5 no modo de raciocínio comete 6 vezes menos erros factuais. Em comparação com o o3, a mesma qualidade com metade dos tokens de saída. Pela primeira vez, a pergunta central sobre modelos de linguagem começou a mudar de "quanto ele sabe?" para "com que frequência ele inventa?"

O que o GPT-5 trouxe de diferente

O GPT-5 não é um modelo maior que o GPT-4. É uma arquitetura fundamentalmente diferente: o primeiro modelo OpenAI com um roteador automático que seleciona a profundidade de raciocínio por consulta. Para uma pergunta simples, o modelo responde diretamente. Para um problema que exige múltiplas etapas, ele pensa antes. Essa decisão acontece transparentemente, sem que o usuário precise escolher entre modos.

A janela de contexto é de 400 mil tokens de entrada e 128 mil tokens de saída — o dobro do GPT-4 Turbo. O preço de API é US$ 1,25 por milhão de tokens de entrada e US$ 10,00 por milhão de saída, posicionando o modelo abaixo do Claude Opus 4.7 e do Gemini 3.1 Pro na mesma faixa de capacidade.

Benchmarks: onde o GPT-5 lidera

No lançamento, o GPT-5 marcou 74.9% no SWE-Bench Verified — o benchmark que avalia resolução real de bugs em repositórios GitHub públicos. O GPT-5 Pro com ferramentas chegou a 100% no AIME 2025 e a 88.4% no GPQA Diamond (perguntas de nível PhD em ciências). No HealthBench, o benchmark médico criado pela própria OpenAI com 262 médicos de 60 países, o modelo marcou aproximadamente 73% — o melhor registrado até então.

O número mais impactante não é o benchmark de topo, mas a comparação com os predecessores: a taxa de desinformação caiu de 4.8% para 2.1% com o modo de raciocínio ativo. No contexto de saúde e direito — onde erros factuais têm consequências sérias — essa redução não é estatística. É a diferença entre um modelo utilizável em produção e um que exige verificação constante.

GPT-5.x: a iteração acelerada

Após o GPT-5, a OpenAI acelerou o ciclo de atualização. O GPT-5.2, lançado no segundo semestre de 2025, lidera o MMLU com 93.0% e foi o primeiro modelo a atingir pontuação perfeita no AIME 2025 de forma consistente. O GPT-5.3 Codex focou em código, liderando o HumanEval com 97.5% e o SWE-Bench com 83.0% — o melhor score de qualquer modelo em resolução autônoma de bugs.

O GPT-5.4 expandiu o contexto para 1.05 milhão de tokens. O GPT-5.5, lançado em abril de 2026, aumentou o preço para US$ 5.00/US$ 30.00 por milhão de tokens mas trouxe capacidades de raciocínio ainda mais sofisticadas, especialmente para tarefas de agência e uso de computador.

A saturação dos benchmarks tradicionais

O ciclo de iteração rápida do GPT-5 expôs um problema estrutural: os benchmarks tradicionais estão saturados. O MMLU (exame de múltipla escolha com 57 disciplinas) tem os melhores modelos em 88-93% — próximo do teto teórico para um exame com 4 alternativas. O HumanEval para código já supera 95% nos melhores modelos.

A indústria respondeu com benchmarks mais difíceis: o GPQA Diamond (perguntas de pesquisa de doutorado onde especialistas da área erram 30% das vezes), o SWE-Bench Pro (bugs reais mais complexos), o Terminal-Bench (execução autônoma de tarefas em linha de comando) e o Humanity's Last Exam (HLE), um conjunto de perguntas onde PhDs especialistas na área específica marcam apenas 5%.

O Grok 4 da xAI foi o primeiro modelo a cruzar 50% no HLE em julho de 2025 — marco que gerou mais cobertura jornalística que qualquer benchmark anterior. A razão é simbólica: em perguntas onde a maioria dos doutores erra, um LLM agora acerta metade.

O que ainda não funciona

Apesar dos avanços, o GPT-5 ainda alucina. A taxa média geral caiu para aproximadamente 2% em tarefas gerais, mas em domínios especializados os números são piores: 6-10% em direito, 10-20% em medicina para casos abertos, e até 64% em resumos de casos clínicos sem mitigação ativa.

A diferença entre os 73% do HealthBench e os 93% do MedQA (teste de múltipla escolha médico) ilustra o problema central: modelos sabem medicina de forma impressionante em contextos estruturados, mas a prática clínica real envolve incerteza, informações incompletas, pacientes que descrevem sintomas ambiguamente, e momentos em que a resposta correta é "eu não sei, encaminhe para um especialista". Isso é muito mais difícil de resolver com escala de parâmetros.

O que o GPT-5 trouxe de diferente

Benchmarks: onde o GPT-5 lidera

GPT-5.x: a iteração acelerada

A saturação dos benchmarks tradicionais

O que ainda não funciona

Recibe las publicaciones