La explosión de los modelos de razonamiento: o3, DeepSeek R1 y la nueva era del thinking

En septiembre de 2024, OpenAI lanzó o1-preview con una premisa simple y revolucionaria: antes de responder, el modelo piensa. Dieciséis meses después, el razonamiento explícito dejó de ser un diferencial y se convirtió en un requisito. Todo modelo de frontera en 2026 incluye alguna forma de thinking. La pregunta dejó de ser "¿el modelo razona?" y pasó a ser "¿cuánto cuesta ese razonamiento y cuándo vale la pena usarlo?"

Qué son los modelos de razonamiento

La diferencia técnica es directa. Los modelos convencionales generan tokens en una sola pasada — reciben el input y producen el output directamente. Los modelos de razonamiento asignan tokens de "pensamiento" antes de la respuesta final: el modelo escribe para sí mismo, descompone el problema, considera alternativas, verifica inconsistencias, y solo entonces produce la respuesta visible.

Este proceso se llama chain-of-thought extendido o test-time compute scaling. La intuición: si el entrenamiento define lo que el modelo sabe, el compute en inferencia define cuánto aplica ese conocimiento a un problema específico. Más tokens de pensamiento permiten resolver problemas que exigen múltiples pasos de lógica, verificación de resultados intermedios y exploración de caminos alternativos.

o3 y o4-mini: la línea de producción de OpenAI

o3 y o4-mini, lanzados en abril de 2025, consolidaron el modelo de razonamiento como producto mainstream. o4-mini con uso de herramientas llegó a 99.5% pass@1 en AIME — el principal benchmark de matemática avanzada usado en la competencia estadounidense de Olimpiadas. o3 marcó 96.7% en el mismo benchmark.

La diferencia entre los dos es primariamente económica: o4-mini cuesta la mitad de o3 y entrega resultados similares en matemática y código. o3-pro, la versión más capaz, llega a 36 veces el costo de o4-mini — justificable solo para casos donde cada token de respuesta tiene alto valor de negocio.

Ambos fueron absorbidos por GPT-5 en agosto de 2025, que unificó el pipeline: un único modelo que selecciona automáticamente la profundidad de razonamiento con base en la complejidad del problema.

DeepSeek R1 y R2: la versión open source del thinking

DeepSeek lanzó R1 en enero de 2025 bajo licencia MIT — el primer modelo de razonamiento open source con desempeño comparable al o1 de OpenAI. El impacto fue inmediato: cualquier empresa puede alojar un modelo de razonamiento en su propia infraestructura sin pagar por token.

R1 usa 671 mil millones de parámetros totales (37B activos vía Mixture of Experts). Fue entrenado con el algoritmo GRPO (Group Relative Policy Optimization), que reduce el costo de entrenamiento por refuerzo en aproximadamente 50% en relación con los enfoques anteriores. El costo total de entrenamiento fue inferior a 6 millones de dólares — menos de una décima parte del costo estimado de modelos comparables de laboratorios occidentales.

R2, lanzado en abril de 2026, tomó una dirección opuesta: 32 mil millones de parámetros densos (todos activos en cada inferencia), sin arquitectura MoE. La razón es pragmática — un modelo denso de 32B corre en una sola GPU de consumo con 24GB de VRAM. Para equipos que quieren razonamiento local sin dependencia de un clúster, R2 es la opción más accesible disponible. Marca 92.7% en AIME 2025 — por encima de muchos modelos propietarios con un costo por token decenas de veces mayor.

Qué resuelve mejor (y peor) el razonamiento

Las ganancias de los modelos de razonamiento están concentradas en dominios específicos: matemática, código, lógica formal, análisis de documentos largos y razonamiento científico estructurado. Los problemas que se descomponen en etapas verificables se benefician directamente del thinking.

Para tareas conversacionales, síntesis de texto, clasificación y generación creativa, la ganancia es marginal y el costo extra rara vez se justifica. La heurística que emergió en 2025-2026 es directa: usar razonamiento cuando la respuesta equivocada tiene un costo alto y el problema tiene una estructura lógica verificable. Usar modelos directos para todo lo que exige velocidad y donde el error tiene bajo costo.

Test-time compute: la nueva frontera

El descubrimiento más importante de 2025 no fue un nuevo modelo — fue la confirmación de que asignar más compute en inferencia es un eje de mejora tan real como aumentar los parámetros de entrenamiento.

Esto tiene implicaciones económicas profundas. El paradigma anterior era: entrenar un modelo más grande cuesta miles de millones, pero la inferencia es barata. El nuevo paradigma agrega una dimensión: se puede gastar más en inferencia a cambio de una calidad superior — sin reentrenar nada. Para casos de uso de alto valor, como el descubrimiento de fármacos, la generación de código de producción o el análisis jurídico complejo, esto justifica económicamente un costo por consulta significativamente mayor.

La cuestión abierta para 2026-2027 es si el scaling de test-time compute encontrará rendimientos decrecientes, o si todavía hay órdenes de magnitud de ganancia disponibles asignando más tokens de pensamiento por consulta.

Qué son los modelos de razonamiento

o3 y o4-mini: la línea de producción de OpenAI

DeepSeek R1 y R2: la versión open source del thinking

Qué resuelve mejor (y peor) el razonamiento

Test-time compute: la nueva frontera

Receba as publicações