Mixture of experts: la arquitectura que está redefiniendo la eficiencia en los LLM

Cuando el GLM-5.1 de Z.ai tomó el primer lugar en SWE-Bench Pro en abril de 2026 con 744 mil millones de parámetros totales pero solo 40 mil millones activos por inferencia, mucha gente miró el número y no entendió lo que estaba leyendo. Ese es el punto central de la arquitectura Mixture of Experts, y por qué importa para quien opera infraestructura de IA.

El problema que resuelve la MoE

Los modelos de lenguaje grandes son, fundamentalmente, redes neuronales densas. Cada token procesado activa todos los parámetros del modelo. Un modelo de 70 mil millones de parámetros usa 70 mil millones de parámetros para cada palabra que procesa, ya sea una pregunta simple o un problema complejo de ingeniería de software.

Esto es computacionalmente caro y, en muchos casos, innecesario. No necesitas un especialista en bases de datos para responder una pregunta sobre cocina. La MoE resuelve exactamente eso.

Cómo funciona en la práctica

Una arquitectura Mixture of Experts divide la red en "expertos": subconjuntos de parámetros entrenados para tipos específicos de tareas. Cada capa del modelo tiene un enrutador que, para cada token, decide qué expertos activar.

El resultado: el modelo tiene una capacidad total enorme sobre el papel, pero usa solo una fracción de ella en cada inferencia. El GLM-5.1, por ejemplo, tiene 744 mil millones de parámetros pero usa solo 40 mil millones activos por token. Esto reduce el costo computacional de inferencia en más del 90% comparado con un modelo denso de tamaño equivalente.

Quién lo está usando

El GLM-5.1 no fue pionero. El Mixtral de Mistral (2024) fue uno de los primeros modelos MoE ampliamente adoptados. GPT-4 casi con certeza usa alguna variante de la arquitectura. El Qwen con 397 mil millones de parámetros de Alibaba también está basado en MoE.

En 2026, la tendencia es clara: los modelos más grandes del mercado son prácticamente todos MoE. Los modelos densos están siendo reservados para tamaños menores, donde el sobrecosto del enrutamiento no compensa.

Implicaciones para la infraestructura

Para quien opera centros de datos o planifica infraestructura de IA, la MoE tiene implicaciones directas:

Memoria de GPU: necesitas cargar todos los parámetros en la memoria aunque solo se use una fracción por inferencia. Un modelo de 744 mil millones de parámetros en FP16 exige aproximadamente 1,5 TB de VRAM, lo que significa múltiples GPU A100/H100 en paralelo, aunque solo se activen 40 mil millones.

Latencia: el enrutamiento añade una latencia mínima por inferencia, pero la ganancia de rendimiento es mucho mayor. Para cargas de trabajo por lotes, la MoE es claramente superior.

Temperatura de los racks: las cargas de trabajo MoE tienen un patrón de consumo irregular: picos cuando se activan expertos poco frecuentes, bajo consumo en tareas simples. La gestión térmica debe considerar este comportamiento.

Por qué esto cambia el cálculo de costos

En la nube, pagas por el cómputo usado. Un modelo MoE de 744 mil millones de parámetros procesando una solicitud simple cuesta significativamente menos que un modelo denso equivalente, porque la mayoría de los parámetros no fue activada.

Para operaciones de alto volumen, esta eficiencia cambia el TCO de forma considerable. Es una de las razones por las que los modelos MoE tienden a tener precios más bajos por token en las principales API del mercado.

La dirección del mercado

La MoE no es una curiosidad arquitectónica: es el camino que el mercado eligió para escalar capacidad sin escalar el costo en la misma proporción. Entender cómo funciona es cada vez más relevante para quien toma decisiones sobre infraestructura de IA.