← Blog

Llama 4 y DeepSeek V4: el open source llegó a la frontera de verdad

11 jun 2026

En abril de 2026, Meta lanzó Llama 4 Scout y Llama 4 Maverick — los primeros modelos open source nativa y genuinamente multimodales, con arquitectura Mixture of Experts, y la mayor ventana de contexto jamás disponible en cualquier modelo: 10 millones de tokens en Scout. En el mismo mes, DeepSeek lanzó V4 con 1.6 billones de parámetros totales y 49 mil millones activos — el mayor modelo open source de la historia en términos de parámetros totales. La tesis de 2024 — "el open source está 2 años atrás del cerrado" — tuvo que ser revisada.

Llama 4: la familia Meta

Llama 4 llegó con dos modelos disponibles y un tercero en desarrollo.

El Scout tiene 17 mil millones de parámetros activos y 16 expertos (109B totales). La ventana de contexto de 10 millones de tokens es el número más impresionante del lanzamiento — equivalente a procesar una biblioteca de investigación entera, un repositorio de código completo de una empresa, o varios años de transcripciones de reuniones en una sola llamada. Cabe en una GPU H100 con cuantización INT4. Es multimodal por defecto: procesa texto, imagen, audio y video.

El Maverick usa los mismos 17B parámetros activos pero con 128 expertos y 400 mil millones de parámetros totales. El contexto es de 1 millón de tokens. En LMArena — comparación ciega de preferencias humanas — marcó un Elo de 1.417, superando a GPT-4o y Gemini 2.0 Flash. GPQA Diamond: 69.8%.

El Behemoth, con 288 mil millones de parámetros activos y estimados 2 billones totales, fue anunciado en entrenamiento en abril de 2025. En abril de 2026, aún no ha sido lanzado públicamente — se han reportado inestabilidades en el enrutamiento MoE a escala como factor de retraso.

Licencia: La Llama 4 Community License permite uso comercial para organizaciones con menos de 700 millones de usuarios activos mensuales. Atribución obligatoria. El uso de capacidades de visión está restringido para entidades domiciliadas en la Unión Europea.

DeepSeek V4: frontera a costo abierto

DeepSeek V4 representa la mayor ambición técnica de DeepSeek hasta hoy. El V4-Pro tiene 1.6 billones de parámetros totales con 49 mil millones activos por inferencia — ratio de activación de apenas 3%, el más eficiente de la industria. El V4-Flash usa 284 mil millones totales con 13 mil millones activos.

La principal innovación arquitectural es la Compressed Sparse Attention (CSA): los tokens se comprimen en representaciones sumarias, y cada nuevo token atiende solo a los top-k más relevantes en vez de toda la secuencia. Esto permite un contexto de 1 millón de tokens con un consumo de memoria gestionable. El V4-Pro-Max marcó 80.6% en SWE-Bench Verified — el mayor score jamás registrado en resolución autónoma de bugs en código real.

Precio y licencia: V4-Flash a US$ 0.14/M tokens de entrada; V4-Pro a US$ 1.74/M. Ambos bajo MIT o Apache 2.0 — completamente libres para uso comercial, modificación y redistribución. El V4 fue entrenado en hardware Huawei Ascend en vez de GPUs NVIDIA, demostrando que la dependencia de infraestructura estadounidense puede ser sorteada.

Qwen 3.5: la apuesta de Alibaba

Alibaba entró en 2026 con Qwen 3.5-397B, un modelo MoE con 17 mil millones de parámetros activos y 512 expertos. El contexto nativo es de 262 mil tokens con extensión a 1 millón. El modelo supera a GPT-5.2 en IFBench — benchmark de seguimiento de instrucciones — con 76.5 vs. 75.4. Qwen3.5-9B (solo 9B parámetros) supera a GPT-OSS-120B en GPQA Diamond: 81.7% vs. 71.5%.

La licencia es Apache 2.0, con la única restricción de un proceso de aprobación para operadores con más de 100 millones de usuarios mensuales.

Qué cambió en la competitividad open source

La diferencia entre modelos open source y cerrados es ahora más matizada que "mejor vs. peor". En benchmarks de matemática pura (AIME), DeepSeek V3.2 marca 96.0% — comparable a GPT-5.2. En seguimiento de instrucciones, Qwen 3.5 supera a modelos propietarios de OpenAI. En costo por inferencia auto-alojada, la ventaja es de 10 a 100 veces frente a las APIs cerradas.

El gap persiste en tareas agentivas complejas (benchmarks como Terminal-Bench y SWE-Bench Pro), en seguridad y alineamiento (los modelos open source tienen menos validación pública), y en multimodalidad avanzada (el video nativo todavía es limitado en el ecosistema abierto).

La implicación estratégica para los gestores de tecnología es clara: para workloads de alto volumen, privacidad regulada, o customización vertical profunda, el auto-alojamiento de modelos open source de frontera pasó de opción experimental a alternativa concretamente competitiva.

Recibe las publicaciones

Nuevos artículos sobre IA, Vibe Code y Builder Code — por correo o Telegram.

o
Recibir en Telegram

Al suscribirte, aceptas recibir correos/mensajes y la Política de Privacidad. Puedes cancelar cuando quieras. Sin spam.