GPT-5: el modelo que redefinió lo que significa errar menos

Cuando OpenAI lanzó GPT-5 en agosto de 2025, el dato que más llamó la atención no fue el benchmark de matemática — fue la reducción de alucinaciones. En comparación con GPT-4o, GPT-5 en modo de razonamiento comete 6 veces menos errores factuales. En comparación con o3, la misma calidad con la mitad de los tokens de salida. Por primera vez, la pregunta central sobre los modelos de lenguaje comenzó a cambiar de "¿cuánto sabe?" a "¿con qué frecuencia inventa?"

Qué trajo GPT-5 de diferente

GPT-5 no es un modelo más grande que GPT-4. Es una arquitectura fundamentalmente diferente: el primer modelo de OpenAI con un enrutador automático que selecciona la profundidad de razonamiento por consulta. Para una pregunta simple, el modelo responde directamente. Para un problema que exige múltiples etapas, piensa antes. Esa decisión sucede de forma transparente, sin que el usuario tenga que elegir entre modos.

La ventana de contexto es de 400 mil tokens de entrada y 128 mil tokens de salida — el doble de GPT-4 Turbo. El precio de API es US$ 1,25 por millón de tokens de entrada y US$ 10,00 por millón de salida, posicionando el modelo por debajo de Claude Opus 4.7 y Gemini 3.1 Pro en la misma franja de capacidad.

Benchmarks: dónde lidera GPT-5

En el lanzamiento, GPT-5 marcó 74.9% en SWE-Bench Verified — el benchmark que evalúa la resolución real de bugs en repositorios GitHub públicos. GPT-5 Pro con herramientas llegó a 100% en AIME 2025 y a 88.4% en GPQA Diamond (preguntas de nivel PhD en ciencias). En HealthBench, el benchmark médico creado por la propia OpenAI con 262 médicos de 60 países, el modelo marcó aproximadamente 73% — el mejor registrado hasta entonces.

El número más impactante no es el benchmark de cima, sino la comparación con los predecesores: la tasa de desinformación cayó de 4.8% a 2.1% con el modo de razonamiento activo. En el contexto de salud y derecho — donde los errores factuales tienen consecuencias serias — esa reducción no es estadística. Es la diferencia entre un modelo utilizable en producción y uno que exige verificación constante.

GPT-5.x: la iteración acelerada

Después de GPT-5, OpenAI aceleró el ciclo de actualización. GPT-5.2, lanzado en el segundo semestre de 2025, lidera el MMLU con 93.0% y fue el primer modelo en alcanzar una puntuación perfecta en AIME 2025 de forma consistente. GPT-5.3 Codex se enfocó en código, liderando HumanEval con 97.5% y SWE-Bench con 83.0% — el mejor score de cualquier modelo en resolución autónoma de bugs.

GPT-5.4 expandió el contexto a 1.05 millones de tokens. GPT-5.5, lanzado en abril de 2026, aumentó el precio a US$ 5.00/US$ 30.00 por millón de tokens pero trajo capacidades de razonamiento aún más sofisticadas, especialmente para tareas de agencia y uso de computadora.

La saturación de los benchmarks tradicionales

El ciclo de iteración rápida de GPT-5 expuso un problema estructural: los benchmarks tradicionales están saturados. El MMLU (examen de opción múltiple con 57 disciplinas) tiene los mejores modelos en 88-93% — cerca del techo teórico para un examen con 4 alternativas. El HumanEval para código ya supera el 95% en los mejores modelos.

La industria respondió con benchmarks más difíciles: GPQA Diamond (preguntas de investigación de doctorado donde los especialistas del área se equivocan el 30% de las veces), SWE-Bench Pro (bugs reales más complejos), Terminal-Bench (ejecución autónoma de tareas en línea de comandos) y Humanity's Last Exam (HLE), un conjunto de preguntas donde los PhDs especialistas en el área específica marcan apenas el 5%.

Grok 4 de xAI fue el primer modelo en cruzar el 50% en HLE en julio de 2025 — un hito que generó más cobertura periodística que cualquier benchmark anterior. La razón es simbólica: en preguntas donde la mayoría de los doctores se equivoca, un LLM ahora acierta la mitad.

Lo que todavía no funciona

A pesar de los avances, GPT-5 todavía alucina. La tasa media general cayó a aproximadamente 2% en tareas generales, pero en dominios especializados los números son peores: 6-10% en derecho, 10-20% en medicina para casos abiertos, y hasta 64% en resúmenes de casos clínicos sin mitigación activa.

La diferencia entre el 73% de HealthBench y el 93% de MedQA (test de opción múltiple médico) ilustra el problema central: los modelos saben medicina de forma impresionante en contextos estructurados, pero la práctica clínica real involucra incertidumbre, información incompleta, pacientes que describen síntomas de forma ambigua, y momentos en que la respuesta correcta es "no sé, derive a un especialista". Esto es mucho más difícil de resolver con escala de parámetros.

Qué trajo GPT-5 de diferente

Benchmarks: dónde lidera GPT-5

GPT-5.x: la iteración acelerada

La saturación de los benchmarks tradicionales

Lo que todavía no funciona

Recibe las publicaciones