LLMs na medicina: do benchmark USMLE ao consultório real

O o3 da OpenAI marca 96% no MedQA — o exame de licenciamento médico americano (USMLE). O GPT-5 marca 73% no HealthBench. Em abril de 2026, um estudo da Harvard Medical School e Beth Israel Deaconess Medical Center publicado com repercussão no NPR concluiu que um modelo de raciocínio da OpenAI igualou ou superou médicos em acurácia diagnóstica para casos de pacientes reais. Esses números são reais. Mas existe uma lacuna entre benchmarks e prática clínica que a indústria ainda não solucionou — e entender essa lacuna é mais importante do que qualquer score individual.

O que os benchmarks médicos medem

O MedQA é um exame de múltipla escolha com 4 opções por questão, baseado no banco de questões do USMLE. Médicos recém-formados passam com 65%. Médicos experientes tipicamente marcam 85-90%. O o3 marca 96%.

A crítica ao MedQA como medida de competência clínica real é fundamentada: questões de múltipla escolha com 4 alternativas são o ambiente mais favorável possível para modelos de linguagem. O modelo precisa apenas identificar a resposta mais plausível entre opções pré-definidas. Na prática clínica, as opções não estão listadas.

O HealthBench, criado pela OpenAI com 262 médicos de 60 países e 26 especialidades, é uma tentativa de medir o que realmente importa: qualidade de comunicação, manuseio de incerteza, adequação de escalonamento ("encaminhe para um especialista"), segurança em triagem de emergência, e orientações clínicas precisas em múltiplos turnos de conversa. O GPT-5 marca 73% — impressionante, mas 23 pontos abaixo do score no MedQA. Essa diferença de 23 pontos é a distância entre saber medicina e praticá-la em contexto real.

A lacuna conhecimento-prática

Uma revisão sistemática publicada no JMIR em 2025, cobrindo 39 benchmarks clínicos de LLMs, quantificou o problema com precisão. A acurácia diagnóstica cai de 82% em vinhetas clínicas tradicionais para 62.7% em diálogos multi-turno com pacientes — uma queda de 19.3 pontos percentuais. Apenas 5% dos estudos avaliaram desempenho de LLMs em dados reais de pacientes. Apenas 4 estudos com revisão por pares documentaram implementação clínica real em todo o mundo até 2025.

A lacuna existe porque a prática clínica envolve: informações incompletas fornecidas pelo paciente, sintomas que se modificam ao longo da consulta, múltiplas condições simultâneas, contexto socioeconômico que afeta a conduta, e a necessidade de decidir quando dizer "não sei" e encaminhar. Nenhum desses elementos está presente em questões de múltipla escolha.

O produto mais implantado: documentação, não diagnóstico

O produto de IA médica com maior penetração em 2026 não é um assistente de diagnóstico. É o Microsoft DAX Copilot (Nuance), um sistema que captura a conversa entre médico e paciente e gera rascunho de nota clínica automaticamente.

O motivo pelo qual DAX Copilot chegou a mais de 10 milhões de encontros clínicos quando outros produtos de IA médica permanecem em piloto é simples: ele não faz diagnóstico. Captura o que o médico disse e faz, e estrutura em formato clínico. O médico revisa e assina. O erro não é crítico — é apenas uma nota mal redigida. A regulação é gerenciável. O valor é imediato: 7 minutos poupados por consulta, 50% menos tempo em documentação após a consulta.

A Hippocratic AI, especializada em agentes para tarefas não-diagnósticas (educação de alta, preparação de cuidador, seguimento pós-internação), usou a mesma lógica: escalar fora do radar da regulação de dispositivos médicos ao não fazer diagnósticos. O resultado são 1.8 milhão de ligações completadas com 8.95/10 de satisfação do paciente.

O caso Harvard/Beth Israel: o que o estudo realmente diz

O estudo publicado em abril de 2026, que concluiu que o modelo de raciocínio da OpenAI "superou médicos em diagnóstico", merece leitura cuidadosa. Ele avaliou casos clínicos apresentados como texto estruturado para o modelo e para médicos em condições de teste — sem contato direto com o paciente, sem exame físico, sem capacidade de pedir exames adicionais. Nas condições do experimento, o modelo foi mais preciso.

Nas condições do experimento — não na prática real. A distinção importa. Médicos têm acesso a informações que texto não captura: a aparência geral do paciente (o "fácies"), a forma como ele respira, o resultado do exame físico, a intuição acumulada de anos vendo como doenças se apresentam de formas atípicas. Nenhum desses inputs estava disponível para o médico ou para o modelo no estudo.

O resultado é válido e relevante. Mas não significa que LLMs devem substituir médicos. Significa que, como ferramenta de apoio à decisão em contextos específicos, o potencial é real — e que os próximos 2 a 3 anos definirão que contextos são esses.

O que os benchmarks médicos medem

A lacuna conhecimento-prática

O produto mais implantado: documentação, não diagnóstico

O caso Harvard/Beth Israel: o que o estudo realmente diz

Receba as publicações