Qwen 3.5 y 3.6: Alibaba y la ambición de cubrir todos los casos de uso

La estrategia de Alibaba con la serie Qwen es diferente de la de los demás fabricantes. Mientras Meta lanza tres modelos, DeepSeek lanza dos y Mistral lanza uno, en 2026 Alibaba cubre simultáneamente dispositivos móviles con menos de 1.000 millones de parámetros y servidores de datacenter con 397.000 millones — todo en la misma familia, con la misma arquitectura base, bajo licencia Apache 2.0.

Qwen 3.5: Una familia completa

Qwen 3.5 fue lanzado en marzo de 2026 con una propuesta poco común: ocho tamaños de modelo en una única versión. Los modelos pequeños — 0,8B, 2B, 4B y 9B — fueron lanzados en el mismo ciclo que el flagship 397B-A17B (397.000 millones de parámetros totales, 17.000 millones activos vía MoE).

La lógica es de plataforma: una empresa que adopta Qwen 3.5 puede usar el modelo de 9B para inferencia local en el edge, el de 27B o 35B para servidores on-premises de tamaño medio, y el 397B vía API para tareas de alta complejidad — todo con la misma familia de modelos, comportamientos consistentes y fine-tuning portable entre tamaños.

Arquitectura híbrida

El diferencial técnico de Qwen 3.5 es la combinación de arquitecturas: Gated Delta Networks (atención lineal) integradas a un sistema MoE disperso. La atención lineal reduce el crecimiento cuadrático del costo computacional con el aumento del contexto — crítico para modelos que soportan hasta 1 millón de tokens.

Todos los modelos de la familia son nativamente multimodales, procesando texto, imágenes y video vía fusión temprana de tokens multimodales — el equivalente técnico de haber sido entrenados con todas las modalidades desde el inicio, no de haber recibido la visión como módulo adicional. Soporte para 201 idiomas y dialectos.

Benchmarks

El modelo 9B marca 70,1 en MMMU-Pro (benchmark de razonamiento visual), 22,5% por encima de GPT-5-Nano en el mismo benchmark. El flagship 397B-A17B compite con modelos cerrados de frontera en razonamiento y tareas agénticas.

Qwen 3.6: Foco en código y agentes

En abril de 2026, Alibaba lanzó Qwen 3.6, específicamente el modelo 3.6-35B-A3B (35.000 millones totales, 3.000 millones activos por inferencia). Es un modelo diseñado para coding y tareas agénticas, no para uso general.

Los resultados del 3.6-35B-A3B en Terminal-Bench 2.0 llegan a 51,5, y en SWE-Bench Verified a 73,4 — dentro del rango competitivo de modelos de coding mucho mayores. Lanzado bajo Apache 2.0, corre con comodidad en hardware de consumo con una única GPU de memoria adecuada.

Qwen 3.6-Plus, la versión mayor de la familia, tiene contexto estándar de 1 millón de tokens y benchmarks agénticos comparables a Claude Opus 4.5. El costo vía API es de US$ 0,38 por millón de tokens de entrada — para comparar, Gemini 3.1 Pro cuesta US$ 2,00 en el mismo benchmark. La diferencia de costo es de 5x para un desempeño similar en muchas tareas.

Lo que hace diferente a Alibaba

Hay dos aspectos que distinguen la estrategia Qwen de las demás.

El primero es la escala del soporte de idiomas. 201 idiomas es más que cualquier otro modelo de frontera. Para aplicaciones en mercados asiáticos, de Oriente Medio y de África, donde el soporte a idiomas locales de otros modelos es superficial, los modelos Qwen tienen ventaja práctica.

El segundo es la consistencia de la familia. La mayoría de los competidores lanzan modelos con arquitecturas distintas para cada segmento de mercado — un modelo para edge, otro para cloud, otro para coding. Alibaba mantiene una familia coherente con comportamiento y entrenamiento consistentes, lo que simplifica el workflow de quien necesita múltiples tamaños para diferentes deployment targets.

El contexto estratégico

Como DeepSeek, Alibaba opera bajo restricciones de exportación estadounidenses de hardware avanzado. La eficiencia arquitectónica de Qwen 3.5 y 3.6 — especialmente en la combinación de atención lineal con MoE para contextos largos — es en parte respuesta a esas restricciones.

El resultado: modelos que son competitivos con el estado del arte usando menos compute por inferencia. Para quien opera estos modelos en producción, esto se traduce en menor costo y mayor throughput por GPU disponible.

Apache 2.0 en toda la familia elimina barreras legales para la adopción empresarial. Con Llama 4 restringido en Europa y DeepSeek bajo MIT, los modelos Qwen 3.5/3.6 se convierten en una de las opciones más jurídicamente simples para uso global sin restricciones regionales.

Posición en el ecosistema

En mayo de 2026, la serie Qwen ocupa un espacio específico: no es el mejor modelo en ningún benchmark único, pero es una de las pocas opciones que ofrece todo el rango de tamaños, multimodalidad nativa, soporte extenso a idiomas y licencia verdaderamente abierta en una única familia. Para quien necesita una cobertura amplia con una plataforma unificada, es la elección de menor fricción disponible.