LLMs en la medicina: del benchmark USMLE al consultorio real

El o3 de OpenAI marca 96% en MedQA — el examen de licenciamiento médico estadounidense (USMLE). GPT-5 marca 73% en HealthBench. En abril de 2026, un estudio de la Harvard Medical School y el Beth Israel Deaconess Medical Center publicado con repercusión en NPR concluyó que un modelo de razonamiento de OpenAI igualó o superó a los médicos en precisión diagnóstica para casos de pacientes reales. Estos números son reales. Pero existe una brecha entre los benchmarks y la práctica clínica que la industria todavía no ha solucionado — y entender esa brecha es más importante que cualquier score individual.

Qué miden los benchmarks médicos

El MedQA es un examen de opción múltiple con 4 opciones por pregunta, basado en el banco de preguntas del USMLE. Los médicos recién graduados aprueban con 65%. Los médicos experimentados típicamente marcan 85-90%. El o3 marca 96%.

La crítica al MedQA como medida de competencia clínica real está fundamentada: las preguntas de opción múltiple con 4 alternativas son el ambiente más favorable posible para los modelos de lenguaje. El modelo solo necesita identificar la respuesta más plausible entre opciones predefinidas. En la práctica clínica, las opciones no están listadas.

El HealthBench, creado por OpenAI con 262 médicos de 60 países y 26 especialidades, es un intento de medir lo que realmente importa: calidad de comunicación, manejo de la incertidumbre, adecuación del escalamiento ("derive a un especialista"), seguridad en el triaje de emergencia, y orientaciones clínicas precisas en múltiples turnos de conversación. GPT-5 marca 73% — impresionante, pero 23 puntos por debajo del score en MedQA. Esa diferencia de 23 puntos es la distancia entre saber medicina y practicarla en un contexto real.

La brecha conocimiento-práctica

Una revisión sistemática publicada en JMIR en 2025, que cubre 39 benchmarks clínicos de LLMs, cuantificó el problema con precisión. La precisión diagnóstica cae de 82% en viñetas clínicas tradicionales a 62.7% en diálogos multi-turno con pacientes — una caída de 19.3 puntos porcentuales. Solo el 5% de los estudios evaluó el desempeño de LLMs en datos reales de pacientes. Solo 4 estudios con revisión por pares documentaron implementación clínica real en todo el mundo hasta 2025.

La brecha existe porque la práctica clínica involucra: información incompleta proporcionada por el paciente, síntomas que se modifican a lo largo de la consulta, múltiples condiciones simultáneas, contexto socioeconómico que afecta la conducta, y la necesidad de decidir cuándo decir "no sé" y derivar. Ninguno de estos elementos está presente en preguntas de opción múltiple.

El producto más implementado: documentación, no diagnóstico

El producto de IA médica con mayor penetración en 2026 no es un asistente de diagnóstico. Es Microsoft DAX Copilot (Nuance), un sistema que captura la conversación entre médico y paciente y genera automáticamente un borrador de nota clínica.

El motivo por el cual DAX Copilot llegó a más de 10 millones de encuentros clínicos cuando otros productos de IA médica permanecen en piloto es simple: no hace diagnóstico. Captura lo que el médico dijo e hizo, y lo estructura en formato clínico. El médico revisa y firma. El error no es crítico — es apenas una nota mal redactada. La regulación es gestionable. El valor es inmediato: 7 minutos ahorrados por consulta, 50% menos tiempo en documentación después de la consulta.

Hippocratic AI, especializada en agentes para tareas no diagnósticas (educación de alta, preparación del cuidador, seguimiento posinternación), usó la misma lógica: escalar fuera del radar de la regulación de dispositivos médicos al no hacer diagnósticos. El resultado son 1.8 millones de llamadas completadas con 8.95/10 de satisfacción del paciente.

El caso Harvard/Beth Israel: qué dice realmente el estudio

El estudio publicado en abril de 2026, que concluyó que el modelo de razonamiento de OpenAI "superó a los médicos en diagnóstico", merece una lectura cuidadosa. Evaluó casos clínicos presentados como texto estructurado al modelo y a los médicos en condiciones de prueba — sin contacto directo con el paciente, sin examen físico, sin capacidad de pedir exámenes adicionales. En las condiciones del experimento, el modelo fue más preciso.

En las condiciones del experimento — no en la práctica real. La distinción importa. Los médicos tienen acceso a información que el texto no captura: la apariencia general del paciente (el "facies"), la forma en que respira, el resultado del examen físico, la intuición acumulada de años viendo cómo las enfermedades se presentan de formas atípicas. Ninguno de estos inputs estaba disponible para el médico o para el modelo en el estudio.

El resultado es válido y relevante. Pero no significa que los LLMs deban sustituir a los médicos. Significa que, como herramienta de apoyo a la decisión en contextos específicos, el potencial es real — y que los próximos 2 a 3 años definirán cuáles son esos contextos.

Qué miden los benchmarks médicos

La brecha conocimiento-práctica

El producto más implementado: documentación, no diagnóstico

El caso Harvard/Beth Israel: qué dice realmente el estudio

Receba as publicações