GPT-5.5 y Claude Opus 4.7: la nueva barra de los modelos autónomos

En marzo de 2026, GPT-5.4 y Claude Opus 4.6 definían el estado del arte. En abril, ambas empresas lanzaron actualizaciones que no fueron incrementos de fine-tuning — fueron revisiones de arquitectura y objetivo que cambian lo que estos modelos están diseñados para hacer. El foco ya no es responder mejor: es ejecutar con más autonomía.

GPT-5.5: reconstruido desde cero

GPT-5.5, lanzado el 23 de abril de 2026, es inusual en la historia de OpenAI. Según la empresa, es la primera vez desde GPT-4.5 que reconstruyeron la arquitectura, el corpus de preentrenamiento y los objetivos de entrenamiento simultáneamente — no fue un ajuste sobre la versión anterior.

El diseño del 5.5 fue orientado por una premisa específica: el modelo necesita funcionar como un agente autónomo, no como un generador de respuestas. Esto implica capacidad de llamar herramientas encadenadas, mantener estado en tareas largas y recuperarse de errores sin intervención humana.

En la práctica, las mejoras más reportadas por los desarrolladores son:

Persistencia de instrucciones en tareas largas. Los modelos anteriores tenían tendencia a "olvidar" instrucciones dadas al inicio de conversaciones largas o pipelines complejos. El 5.5 trata esto como requisito de diseño, no como característica secundaria.

Orquestación de herramientas. En pipelines con múltiples herramientas — APIs externas, ejecución de código, lectura de archivos — el 5.5 demuestra mejor juicio sobre cuándo y cómo combinar capacidades. La tasa de errores en secuencias de herramientas cayó de forma mensurable.

Computer use mejorado. La capacidad de interactuar con interfaces gráficas de forma más confiable, lo que abre casos de uso de automatización que antes eran demasiado frágiles para producción.

El 5.5 está disponible vía API de OpenAI con los mismos endpoints del 5.4. El modelo es propietario, sin pesos disponibles.

Claude Opus 4.7: salto mensurable en ingeniería de software

Claude Opus 4.7, lanzado el 16 de abril de 2026 por Anthropic, tiene un diferencial preciso: los números de benchmark no son modestos. El salto del 4.6 al 4.7 es el mayor entre versiones consecutivas que Anthropic haya publicado.

SWE-Bench Verified: de 80,8% a 87,6%. SWE-Bench Pro: de 53,4% a 64,3%. MCP Atlas tool-use performance: 79,1% — el mejor de cualquier modelo en el benchmark. Y el precio se mantuvo idéntico al Opus 4.6: US$ 5 por millón de tokens de entrada, US$ 25 por millón de salida.

Para quien usa modelos en producción para tareas de código y agentes, ese salto tiene implicaciones concretas. SWE-Bench mide la capacidad de resolver issues reales de repositorios GitHub — no solo generar código, sino entender un repositorio existente, identificar el problema e implementar la corrección. 87,6% en SWE-Bench Verified es la mejor marca de cualquier modelo disponible comercialmente.

El Claude Mythos Preview: más allá del Opus

Separado del Opus 4.7, Anthropic también presentó el Claude Mythos Preview en abril de 2026 — en acceso restringido a aproximadamente 50 organizaciones asociadas vía Project Glasswing.

Mythos es descrito por Anthropic como "un salto por encima del Opus 4.6" en tres áreas: detección de vulnerabilidades de seguridad cibernética, razonamiento avanzado y programación. En GPQA Diamond — el benchmark de razonamiento científico más discriminativo — el Mythos Preview marca 94,6%, actualmente la mejor marca de cualquier modelo público o semipúblico.

El hecho de que Mythos esté en preview restringido mientras el Opus 4.7 se libera ampliamente sugiere una estrategia de segmentación: Mythos está posicionado para casos de uso de seguridad e investigación avanzada, con proceso de verificación de socios, mientras que el Opus 4.7 atiende el mercado general de producción.

La convergencia en autonomía

El patrón que emerge de las actualizaciones de GPT-5.5 y Claude Opus 4.7 no es solo mejor rendimiento en benchmarks. Es una redefinición de lo que un modelo de lenguaje debe hacer: no generar respuestas, sino ejecutar tareas.

Esto tiene implicaciones para la forma en que se diseñan los sistemas. Un modelo que mantiene estado, orquesta herramientas y se recupera de errores autónomamente no es solo un componente mejor — es un componente que cambia la arquitectura del sistema a su alrededor.

Gemini 3.1 Pro: el contexto de costo

En el mismo período, el Gemini 3.1 Pro de Google se consolida como la referencia de costo-beneficio en la frontera: US$ 2,00 por millón de tokens de entrada y US$ 12,00 de salida, con 1 millón de tokens de contexto y 80,6% en SWE-Bench. También es el único modelo de frontera con entrada nativa de texto, imagen, audio y video en un solo modelo.

El GPT-5.5 y el Opus 4.7 son más caros. La justificación está en el rendimiento en casos de uso específicos de autonomía e ingeniería de software donde las brechas son significativas. Para uso general, la diferencia de costo de Gemini es difícil de ignorar.

Qué significa esto

El mensaje del primer cuatrimestre de 2026 es que la frontera de los modelos cerrados no se detuvo. GPT-5.5 y Claude Opus 4.7 representan aumentos reales de capacidad — no incrementales, sino de escala. Y el foco compartido en autonomía indica que el próximo campo de batalla no es el chat, sino el agente que trabaja mientras duermes.