Mistral Medium 3.5 y Grok 4.3: cuando la eficiencia se vuelve ventaja competitiva

No todo avance en LLMs necesita venir de modelos de un billón de parámetros. El final de abril y el inicio de mayo de 2026 trajeron dos lanzamientos que apuestan por una premisa diferente: desempeño de frontera a un costo sustancialmente menor, con arquitecturas que toman decisiones deliberadas sobre qué optimizar.

Mistral Medium 3.5: El mejor dense model abierto para código

Mistral Medium 3.5, lanzado el 2 de mayo de 2026, es una apuesta a contracorriente. Mientras prácticamente todos los modelos grandes de 2026 usan Mixture of Experts, Mistral Medium 3.5 es un modelo denso — 128.000 millones de parámetros totales, todos activos en cada inferencia.

La elección no es ingenuidad arquitectónica. Es una decisión de producto: los modelos densos tienen un comportamiento más previsible en hardware variado, una latencia más consistente por inferencia y la ausencia de los edge cases que surgen cuando los enrutamientos MoE activan expertos poco comunes. Para deployment en infraestructura propia, esto tiene un valor operacional real.

Lo que entrega el Medium 3.5

Los números de benchmark son precisos sobre dónde se posiciona el modelo. En SWE-Bench, el Medium 3.5 marca 77,6% — mejor que todos los modelos open source densos disponibles. Queda por debajo del Claude Sonnet 4.6 y del DeepSeek V4 Pro en los modelos de mayor capacidad, pero a la mitad del costo del Sonnet.

El Medium 3.5 corre en cuatro GPUs. No exige un cluster de 8 o 16 GPUs como los modelos MoE mayores. Para operaciones que no tienen infraestructura de escala de datacenter pero quieren un desempeño real de código en producción, esa es la propuesta: 77,6% SWE-Bench en hardware que cabe en un servidor de cuatro GPUs.

Especificaciones:

128.000 millones de parámetros (denso)
Contexto de 256.000 tokens
US$ 1,50 por millón de tokens de entrada vía API
Disponible como open weights bajo licencia MIT modificada

La licencia MIT modificada es relevante: permite uso comercial sin restricciones para la mayoría de los casos, con exigencias específicas de atribución. Es más abierta que la licencia Meta Llama, menos abierta que la MIT pura de DeepSeek.

Posicionamiento en el ecosistema

El Medium 3.5 sustituye al Devstral 2 y al Magistral en la línea de Mistral, consolidando capacidades de chat, razonamiento y código en un único modelo. Mistral comunicó explícitamente que ya no va a mantener modelos separados para cada función — Medium 3.5 es el flagship unificado.

Para equipos de ingeniería que prefieren un único modelo de producción para tareas variadas — en lugar de enrutar entre múltiples modelos especializados — esto simplifica la arquitectura del sistema.

Grok 4.3: Razonamiento nativo y costo agresivo

Grok 4.3, de xAI (empresa de Elon Musk), entró en beta el 17 de abril de 2026, con acceso vía API generalizado a partir del 1 de mayo. Es el lanzamiento más relevante de xAI desde Grok 4.20.

Lo que cambió respecto al 4.20

El 4.3 incorpora razonamiento nativo — el modelo "piensa" antes de responder, similar al enfoque de DeepSeek R1 y de OpenAI o3. El razonamiento está integrado en la inferencia estándar, no es un modo separado que necesite ser activado explícitamente.

La ventana de contexto es de 1 millón de tokens. El input de video nativo — capacidad de procesar directamente archivos de video, no solo imágenes estáticas — diferencia al 4.3 de la mayoría de los competidores que aún procesan video vía frames extraídos.

Benchmarks destacados:

Índice de Inteligencia: 53 (mediana del mercado: 35)
CaseLaw v2: primer lugar entre todos los modelos probados
CorpFin: primer lugar entre todos los modelos probados
Ganancia de 300+ Elo en GDPval-AA versus el Grok 4.20

CaseLaw y CorpFin son benchmarks de razonamiento jurídico y financiero, respectivamente. Liderar en esas categorías indica una especialización relevante para sectores profesionales específicos.

Precio y acceso

El precio de Grok 4.3 vía API es de US$ 1,25 por millón de tokens de entrada — agresivamente por debajo de GPT-5.5 y de Claude Opus 4.7, y competitivo con Gemini 3.1 Pro. El modelo no tiene pesos abiertos; es accesible exclusivamente vía la API de xAI.

xAI no tiene el ecosistema de integraciones de OpenAI o de Anthropic, pero el precio y los benchmarks en razonamiento jurídico y financiero crean un nicho claro: empresas de servicios profesionales que necesitan un razonamiento sofisticado a costo controlado.

La lógica de la eficiencia

Lo que Mistral Medium 3.5 y Grok 4.3 comparten es un posicionamiento que no compite directamente con GPT-5.5 o Claude Opus 4.7 en la cima absoluta de performance. Compiten en el segundo nivel — modelos que ofrecen 85-90% del desempeño de frontera al 30-50% del costo.

Para la mayoría de los casos de uso en producción, ese segundo nivel es suficiente. La diferencia entre 87% y 77% en SWE-Bench importa para la automatización de ingeniería de software a escala. Para análisis de documentos, generación de contenido, atención y la mayor parte de los workflows empresariales, no importa.

La estrategia de precio actuando como competencia técnica es una de las dinámicas más importantes de 2026. No son solo los mejores modelos los que cambian el mercado — son los modelos suficientemente buenos a un precio que vuelve la adopción irresistible.