MedGemma y el movimiento de IA médica open source

En mayo de 2025, Google lanzó MedGemma a través del programa Health AI Developer Foundations (HAI-DEF) — poniendo a disposición un modelo de lenguaje médico open weight que los equipos de salud pueden ejecutar en su propia infraestructura, ajustar (fine-tuning) con sus propios datos y auditar por completo. El lanzamiento marca un cambio estratégico: la IA médica ya no tiene que ser propiedad exclusiva de las grandes plataformas. Hospitales, universidades y startups de salud pueden construir a partir de una base sólida sin depender de APIs externas.

MedGemma: arquitectura y capacidades

MedGemma está construido sobre la arquitectura Gemma 3 y existe en tres variantes:

4B multimodal: Procesa imágenes y texto simultáneamente. Indicado para clasificación de imágenes médicas (rayos X, dermatología, oftalmología), respuesta a preguntas sobre imágenes clínicas y triaje inicial.

27B text-only: Modelo de lenguaje puro enfocado en razonamiento clínico, revisión de literatura médica, respuesta a preguntas clínicas estructuradas y apoyo a la decisión basado en texto. Obtuvo 87.7% en MedQA — dentro del rango de modelos mucho más grandes.

27B multimodal: Combina razonamiento clínico en texto con procesamiento de imágenes y razonamiento longitudinal sobre registros electrónicos de salud (EHR). La variante más completa para sistemas hospitalarios.

El modelo puede ejecutarse on-premise — en Google Cloud Platform, en servidores propios de la institución, o en hardware local de alto rendimiento. Esto resuelve el principal obstáculo de adopción para hospitales con datos regulados por LGPD, HIPAA o GDPR: los datos del paciente no necesitan salir de la infraestructura de la institución.

MedSigLIP: el componente de visión

Junto con MedGemma, Google lanzó MedSigLIP — un modelo de visión-lenguaje de 400 millones de parámetros especializado en imágenes médicas. MedSigLIP puede usarse de forma independiente para clasificación de imágenes médicas sin la sobrecarga del MedGemma completo. Para hospitales que solo necesitan análisis de rayos X o dermatoscopia, sin generación de texto completa, es la opción de menor costo computacional.

OpenBioLLM: el competidor open source

OpenBioLLM-70B de Saama AI Research es la alternativa más robusta a MedGemma en el espectro open source. Basado en la arquitectura Llama 3, obtiene 74% en MedQA USMLE, 75% en PubMedQA y 80.85% en casos clínicos complejos. Funciona en una sola GPU A100. El modelo de 8B parámetros es una opción para entornos con hardware más limitado.

El diferencial de OpenBioLLM es su especialización en literatura biomédica: fue entrenado extensamente con textos de PubMed, PMC y guías médicas internacionales. Para recuperación de información de literatura científica y resumen de artículos, supera a los modelos generales de capacidad similar.

Meditron3: para contextos de bajos recursos

Meditron, desarrollado por la EPFL en alianza con Yale Medicine y el Comité Internacional de la Cruz Roja (CICR), fue diseñado para un caso de uso específico: salud en contextos de recursos limitados. La tercera versión (Meditron3), basada en Llama 3, se lanzó en 2025 y supera a todos los modelos open source de tamaño equivalente en MedQA y MedMCQA.

Su diferencial no es el benchmark de élite — MedGemma 27B es claramente superior en capacidad absoluta. El diferencial es el tamaño: Meditron3 funciona en hardware que existe en hospitales de países de renta baja y media, y fue entrenado para incluir guías de la OMS y protocolos internacionales relevantes para contextos donde el acceso a especialistas es limitado.

El hallazgo contraintuitivo: el fine-tuning no siempre gana

Un hallazgo importante de la investigación de 2025 (arXiv:2408.13833) cuestiona la premisa básica de los modelos médicos especializados: los modelos biomédicos ajustados (fine-tuned) no superan consistentemente a los modelos generales de frontera en datos médicos no vistos durante el entrenamiento.

La razón es que modelos como GPT-5 y Gemini 3.1 Pro, entrenados con volúmenes masivos de texto, procesaron cantidades enormes de literatura médica — potencialmente más que cualquier fine-tune médico especializado. En benchmarks conocidos, el fine-tune gana porque los datos del benchmark se filtraron al entrenamiento. En datos genuinamente nuevos, la diferencia se reduce.

Esto no invalida a MedGemma ni a OpenBioLLM. Los modelos open source tienen ventajas que van más allá del puntaje del benchmark: funcionan on-premise (privacidad), son ajustables con datos propios (especialización vertical), cuestan mucho menos a escala (infraestructura propia) y pueden auditarse por completo (cumplimiento regulatorio).

Para una institución hospitalaria que necesita procesar 10 millones de registros al año en infraestructura compatible con HIPAA, MedGemma 27B a costo cero de API es una propuesta radicalmente distinta de GPT-5 a US$ 5.00/M tokens. Aunque GPT-5 sea ligeramente superior en calidad, el argumento económico y regulatorio puede ser decisivo.

MedGemma: arquitectura y capacidades

MedSigLIP: el componente de visión

OpenBioLLM: el competidor open source

Meditron3: para contextos de bajos recursos

El hallazgo contraintuitivo: el fine-tuning no siempre gana

Get the latest posts