Mistral, GLM y MiniMax: los modelos que nadie esperaba

El panorama de los LLMs open source en 2025-2026 no es solo Meta, DeepSeek y Alibaba. Hay una segunda capa de players que viene entregando resultados fuera del radar, y que en algunos benchmarks superan incluso a los favoritos.

Mistral AI de Francia, GLM de la Tsinghua University en China, y MiniMax son tres casos que merecen la atención de quien sigue el campo en serio.

Mistral: Eficiencia francesa con licencia abierta

Mistral AI construyó su reputación sobre la combinación de dos elementos: modelos compactos y altamente eficientes + licencia Apache 2.0, la más permisiva para uso comercial.

El modelo de referencia de la línea es el Mixtral 8x22B: 141 mil millones de parámetros totales, con arquitectura Mixture of Experts de 8 especialistas, activando solo 2 por token (~39B activos). Esto entrega escala de parámetros con un costo de inferencia reducido.

En benchmarks, el Mixtral 8x22B alcanza un 77,8 % en MMLU y un 41,8 % en HumanEval (codificación), posicionándose como un modelo generalista sólido: no el mejor en ninguna categoría, pero competitivo en todas.

El diferencial de Mistral no está en la cima de los benchmarks. Está en la viabilidad práctica:

Apache 2.0: uso comercial irrestricto, sin las restricciones de la Meta Community License
Tamaño manejable: se ejecuta en infraestructura de porte medio sin optimizaciones complejas
Fine-tuning documentado: ecosistema maduro para la personalización

Para empresas que necesitan un modelo base para fine-tuning propietario —sin restricciones de licencia—, el Mixtral 8x22B sigue siendo una de las opciones más seguras jurídicamente.

GLM-4.7 y GLM-5: El proyecto de Tsinghua

El GLM (General Language Model) es desarrollado por Z.ai (anteriormente Zhipu AI), empresa nacida como spinoff de la Tsinghua University en 2019 y hoy operando de forma independiente, valorada en aproximadamente US$ 3-4 mil millones. Los resultados recientes llamaron la atención.

El GLM-4.7 alcanza:

AIME 2025 (matemática olímpica): 95,7 % — uno de los mayores scores registrados
GPQA Diamond (razonamiento científico): 85,7 %
LiveCodeBench (codificación real): 84,9 %
IFEval (seguimiento de instrucciones): 88,0 %
Contexto: 200K tokens

Estos números colocan al GLM-4.7 en la cima del leaderboard open source en múltiples categorías, compitiendo directamente con modelos mucho más grandes.

El GLM-5, sucesor mayor, alcanzó 1451 puntos en Chatbot Arena, la mayor puntuación jamás registrada por un modelo open source en esa plataforma de preferencia humana.

MiniMax M2.5: El especialista en ingeniería de software

El MiniMax M2.5 tiene un número que ningún otro modelo en el leaderboard logró igualar: 80,2 % en SWE-bench Verified, el benchmark que mide la capacidad de resolver problemas reales de GitHub.

Para quien no conoce el SWE-bench: somete al modelo issues reales de repositorios open source y evalúa si el modelo logra escribir un patch que pase los tests automatizados. Es el benchmark más cercano al trabajo de ingeniería real.

Ningún modelo open source llegó a ese nivel antes. Esto coloca al MiniMax M2.5 como la opción más fuerte para agentes de desarrollo de software autónomos.

Qué tienen en común estos modelos

Los tres —Mistral, GLM y MiniMax— representan un fenómeno importante: la descentralización de la frontera en IA.

La frontera ya no está concentrada en cuatro o cinco laboratorios estadounidenses. Está distribuida entre Tsinghua, París, Shanghái y decenas de otros centros de investigación que trabajan en silencio y lanzan resultados que sorprenden al mercado.

Para centros de datos y equipos de plataforma, esto significa que la evaluación de modelos necesita ir más allá de los grandes nombres. GLM-4.7 con 95,7 % en AIME no estaba en el radar de casi nadie hace dos años.

Conclusión

Mistral, GLM y MiniMax prueban que la carrera por el mejor LLM open source es más competitiva de lo que sugieren los rankings de popularidad.

Seguir solo los modelos con más estrellas en GitHub es perderse resultados que, en casos específicos, son los mejores disponibles en cualquier categoría, abierta o cerrada.

Fuentes:

Mistral: Eficiencia francesa con licencia abierta

GLM-4.7 y GLM-5: El proyecto de Tsinghua

MiniMax M2.5: El especialista en ingeniería de software

Qué tienen en común estos modelos

Conclusión

Recibe las publicaciones