Gemma 4: Google muestra sus cartas con Apache 2.0 e IA en el dispositivo

Cuando Google lanzó Gemma 1 en 2024, la reacción de la comunidad fue mixta: el modelo era capaz, pero la licencia tenía restricciones que limitaban el uso comercial. Gemma 2 mejoró el desempeño, pero mantuvo la ambigüedad en el licenciamiento. Gemma 4, lanzado el 2 de abril de 2026, eliminó esa cuestión con un cambio que la empresa describió como "el mayor cambio desde Gemma 3": Apache 2.0 en toda la familia.

Apache 2.0 es el estándar corporativo de facto para open source. Uso comercial irrestricto, modificación y redistribución libres, protección de patentes explícita. Para una empresa del tamaño de Google, poner a disposición modelos de frontera bajo Apache 2.0 es una declaración de intención sobre el ecosistema que quieren construir.

Los cuatro modelos del Gemma 4

Gemma 4 fue puesto a disposición en cuatro variantes con posicionamientos distintos.

E2B y E4B son los modelos de edge — diseñados para correr en smartphones, Raspberry Pi y dispositivos como NVIDIA Jetson Orin Nano. Los nombres reflejan el footprint efectivo de inferencia: 2.000 millones y 4.000 millones de parámetros activos, respectivamente. Funcionan completamente offline, con una latencia cercana a cero. Procesan texto, imagen, video y audio nativamente. Contexto de 128K tokens.

26B-A4B es el modelo de tamaño medio — 26.000 millones de parámetros totales, 4.000 millones activos vía MoE. Contexto de 256K tokens. Es el modelo posicionado para servidores on-premises de menor escala, notebooks de desarrollo y APIs de costo reducido. Ocupó el sexto lugar en el Arena AI text leaderboard al momento del lanzamiento.

31B es el flagship de la familia — modelo denso de 31.000 millones de parámetros, contexto de 256K tokens. Tercer lugar en el Arena AI text leaderboard en el lanzamiento, por detrás únicamente de modelos con muchos más parámetros. Es el punto de referencia de calidad de la familia para tareas de razonamiento y generación.

"Byte for byte" — Qué significa esa frase

Google describió a Gemma 4 como "byte for byte, the most capable open models". Es una afirmación técnica precisa: la relación entre el tamaño del modelo (bytes de almacenamiento) y la calidad de output es la mejor entre los modelos abiertos disponibles.

El 31B rankeando como el tercer modelo del mundo en calidad de texto, a pesar de ser significativamente menor que los modelos en la cima de la lista, sustenta esa afirmación. La eficiencia de parámetro — cuánto desempeño se extrae de cada mil millones de parámetros — es donde Google enfocó el desarrollo de Gemma 4.

Esto tiene implicaciones prácticas inmediatas: el 31B corre en hardware que sería insuficiente para modelos de desempeño equivalente de otras familias. Cuatro GPUs de consumo son suficientes, contra ocho o más para modelos comparables de otros orígenes.

Multimodalidad en los modelos de edge

La característica más notable de los modelos E2B y E4B es procesar video y audio nativamente en dispositivos de edge. La mayoría de los modelos que procesan video exige hardware de servidor — GPUs de múltiples GB de VRAM, conexión de red para APIs externas, latencia de red.

El E4B hace esto en un Raspberry Pi o smartphone, offline. Para casos de uso de IoT industrial — análisis de cámaras de seguridad, procesamiento de audio de sensores, visión computacional en línea de producción — esta combinación de multimodalidad nativa con deployment offline elimina dependencias de infraestructura que antes eran ineludibles.

El E2B y el E4B procesan los datos directamente en el dispositivo, sin round-trip al servidor. Para aplicaciones donde la privacidad de datos está regulada (salud, financiero, defensa), procesar en el edge elimina la preocupación de transmitir datos sensibles a APIs externas.

El posicionamiento estratégico de Google

Google tiene una tensión inherente al lanzar modelos abiertos: Gemini 3.1 Pro, su modelo propietario de frontera, es la oferta premium. Gemma 4 es, oficialmente, la versión open source.

Pero el 31B de Gemma 4 en el tercer lugar del leaderboard global vuelve esa distinción menos clara. Para un número creciente de casos de uso, Gemma 4-31B entrega un resultado comparable a Gemini 3.1 Pro en tareas de texto — a una fracción del costo, sin dependencia de API, con licencia totalmente abierta.

La estrategia puede leerse como construcción de ecosistema: al tener el mejor modelo open source disponible, Google garantiza que PyTorch, JAX, TensorFlow y las infraestructuras de ML que corren Gemma también corran en Google Cloud. El modelo abierto alimenta a la plataforma cerrada.

Para quién es relevante Gemma 4

Para equipos que necesitan deployment offline o edge, la familia Gemma 4 E2B/E4B no tiene equivalente competitivo con multimodalidad nativa en abril de 2026.

Para quien necesita calidad de frontera en hardware limitado, el 31B es la mejor relación parámetros/desempeño disponible en licencia abierta.

Para quien opera en Europa o en jurisdicciones con restricciones de uso del Llama 4 de Meta, Gemma 4 con Apache 2.0 es la alternativa directa sin barreras legales.

Google entró en 2026 con la apuesta más abierta que jamás haya hecho en el ecosistema de LLMs. Gemma 4 no es un modelo de segunda línea puesto a disposición para relaciones públicas — es competitivo donde importa, abierto donde los competidores son restrictivos, y fue diseñado para los casos de uso que nadie más está cubriendo adecuadamente.

Los cuatro modelos del Gemma 4

"Byte for byte" — Qué significa esa frase

Multimodalidad en los modelos de edge

El posicionamiento estratégico de Google

Para quién es relevante Gemma 4

Recibe las publicaciones