Llama 4: Meta redefine el open source con MoE nativo y multimodalidad

Meta lanzó modelos abiertos relevantes antes — Llama 2 y Llama 3 tuvieron impacto real en la comunidad. Pero Llama 4, liberado en abril de 2026, representa un cambio de escala y arquitectura que va más allá de las versiones anteriores. Es la primera familia de modelos abiertos de Meta con arquitectura Mixture of Experts nativa y capacidad multimodal desde el entrenamiento.

La familia Llama 4

Llama 4 llegó con tres modelos, en diferentes etapas de disponibilidad.

Scout tiene 109 mil millones de parámetros totales y 17 mil millones activos por inferencia, con 16 expertos en el MoE. Es el modelo diseñado para ejecutarse en una sola GPU NVIDIA H100 — lo que lo hace accesible para quien no tiene infraestructura de clúster. Su ventana de contexto es de 10 millones de tokens, la mayor entre los modelos abiertos en el momento del lanzamiento.

Maverick tiene 400 mil millones de parámetros totales con los mismos 17 mil millones activos, pero con 128 expertos en el enrutamiento MoE. Exige un sistema DGX H100 o un setup equivalente de múltiples GPUs. En los benchmarks multimodales disponibles, supera a GPT-4o y Gemini 2.0 Flash.

Behemoth está en una categoría diferente: 2 billones de parámetros totales y 288 mil millones activos. Aún no ha sido puesto a disposición públicamente — fue anunciado principalmente como "modelo profesor", usado para mejorar Scout y Maverick vía codestilación. Cuando — y si — sea liberado, representará el mayor modelo open source jamás disponibilizado.

Por qué el MoE importa aquí

Llama 3 era un modelo denso. Cada token procesado activaba todos los parámetros. Llama 4 cambió eso: con MoE, Scout procesa cada token usando solo 17 mil millones de los 109 mil millones de parámetros disponibles. El costo computacional de inferencia cae de forma significativa.

Para quien usa modelos en producción — especialmente en volúmenes altos — esa diferencia tiene impacto directo en el costo por token y en el throughput del sistema. Scout fue diseñado específicamente para ser viable en hardware de una sola GPU de una forma que Llama 3-70B simplemente no era, a pesar de tener un rendimiento superior.

Multimodalidad nativa

"Nativo" aquí tiene un significado específico: Scout y Maverick fueron entrenados con datos de texto e imagen desde el inicio, no tuvieron capacidad visual añadida vía fine-tuning posterior. Esto tiende a resultar en una mejor integración entre las modalidades — el modelo razona sobre imágenes de la misma forma que razona sobre texto, sin la separación arquitectónica de los modelos que recibieron visión como add-on.

Ambos fueron entrenados con datos que cubren 200 idiomas, con soporte profundo para 12 de ellos, incluyendo árabe, español, alemán e hindi. El corpus de entrenamiento totaliza 40 billones de tokens.

La ventana de 10 millones de tokens

El contexto de 10 millones de tokens de Scout fue el mayor entre los modelos abiertos en el lanzamiento. Para ponerlo en perspectiva: 10 millones de tokens son aproximadamente 7,5 millones de palabras — el equivalente a varios libros completos, o una base de código entera de un proyecto de tamaño mediano.

En la práctica, esto abre casos de uso que antes eran exclusivos de APIs propietarias con precios premium: análisis de documentación completa, ingesta de codebases grandes, razonamiento sobre conjuntos de datos extensos en una sola llamada.

Licenciamiento: el punto de atención

Llama 4 usa la licencia Meta Llama, que permite uso comercial para la mayoría de las empresas. Pero hay dos restricciones importantes que difieren de licencias verdaderamente abiertas como la MIT.

Las empresas con más de 700 millones de usuarios activos mensuales necesitan una licencia especial de Meta. Y, en el momento del lanzamiento, los usuarios y empresas domiciliados en la Unión Europea tenían prohibido usar o distribuir los modelos — una restricción con implicaciones prácticas significativas para operaciones globales.

Esto coloca a Llama 4 en una categoría diferente de DeepSeek V4 (MIT) y Gemma 4 (Apache 2.0) en términos de libertad de uso irrestricto. Para la mayoría de las empresas, no es un problema. Para operaciones a escala de plataforma o con presencia europea significativa, requiere análisis jurídico.

El posicionamiento estratégico de Meta

Meta no lanza modelos abiertos por altruismo. La estrategia es consistente: al establecer Llama como la base del ecosistema open source, Meta garantiza que su hardware (MTIA), sus productos de IA (Meta AI) y su infraestructura (PyTorch) sigan siendo centrales para el desarrollo global de IA.

Llama 4 Scout ejecutándose en una H100, con 10M de contexto y multimodalidad nativa, es la versión más convincente de ese argumento que Meta haya hecho jamás. El modelo no es solo lo suficientemente bueno para uso en producción — para muchos casos de uso, es el mejor disponible.