IA multimodal en la medicina: radiología, patología y el futuro de la precisión genómica

Med-Gemini-Polygenic, modelo de Google DeepMind, predijo el riesgo de depresión, ACV, glaucoma, artritis reumatoide, mortalidad general, enfermedad arterial coronaria, EPOC y diabetes tipo 2 a partir de datos genómicos — y superó a los puntajes poligénicos lineales tradicionales en los ocho. Para seis condiciones adicionales, hizo predicciones sin haber sido entrenado específicamente para ellas. Esto es medicina de precisión funcionando con IA: no solo clasifica mejor — generaliza.

Por qué la multimodalidad cambia la medicina

La práctica médica nunca fue monomodal. Un diagnóstico de cáncer de pulmón involucra: imagen de tomografía (visual), informe radiológico (texto), biopsia con inmunohistoquímica (imagen microscópica + datos moleculares), historial del paciente (texto), análisis de sangre (datos numéricos), y análisis genómico tumoral (secuencia). Procesar cada modalidad por separado — con herramientas distintas, interpretadas por especialistas distintos — es como leer un libro una letra a la vez.

Los modelos multimodales que integran todas estas fuentes en una única inferencia tienen el potencial de capturar correlaciones entre modalidades que los especialistas humanos no consiguen sistematizar. Un radiólogo experimentado integra intuitivamente lo que ve en la imagen con el historial del paciente. Un modelo entrenado en millones de casos puede sistematizar este proceso de forma escalable.

Med-Gemini: radiología, patología y genómica en una arquitectura

Med-Gemini de Google DeepMind es la familia de modelos que demuestra este potencial de la forma más amplia documentada hasta 2026. Está organizado en cuatro submodelos:

Med-Gemini-L (texto y contexto largo): Marca 91.1% en MedQA — 4.6 puntos porcentuales más que el predecesor Med-PaLM 2. Usa búsqueda web guiada por incertidumbre para integrar literatura médica actualizada. Superó a GPT-4 en los 14 benchmarks donde la comparación directa fue posible.

Med-Gemini-2D (imágenes médicas 2D): Entrenado en radiografía torácica, cortes de TC, láminas de histopatología, imágenes de oftalmología y dermatología. Genera informes de radiografía superando el estado del arte anterior hasta en un 12% para exámenes normales y anormales. Los radiólogos evaluaron el 57% de los informes generados en exámenes normales como equivalentes o superiores a los informes originales — un resultado que, en 2024, se habría considerado inverosímil.

Med-Gemini-3D (imágenes volumétricas 3D): Procesa TC volumétrica completa — no cortes individuales. Más de la mitad de los informes de TC generados fue evaluada por radiólogos como equivalente en recomendaciones de conducta a lo que un radiólogo produciría.

Med-Gemini-Polygenic (datos genómicos): Predice resultados de salud a partir de datos de poligenismo — combinaciones de variantes genéticas de bajo efecto individual que juntas predicen el riesgo de enfermedad. Supera a los modelos lineales tradicionales en 8 condiciones y generaliza a 6 adicionales no incluidas en el entrenamiento.

Med-Gemini no es un producto disponible públicamente. Funciona mediante alianzas de investigación con Google Cloud para salud. MedGemma (descrito en el artículo anterior de esta serie) es la versión open weight derivada, disponible para desarrolladores.

Radiología: el caso de uso más cercano a la escala

De todas las especialidades médicas, la radiología es donde la IA ha llegado más cerca de un impacto clínico real. La FDA ha autorizado más de 950 dispositivos médicos con IA hasta inicios de 2026, y la mayoría está en radiología — especialmente detección de nódulos pulmonares en TC, análisis de mamografía, y triaje de ACV en imágenes de TC de cráneo.

Los modelos actuales pueden detectar hallazgos específicos en imágenes con una exactitud comparable a la de especialistas. La ganancia de productividad es significativa: un radiólogo puede revisar 30 TC por hora; con la IA haciendo una preclasificación (normal/anormal/urgente), puede revisar 60, concentrando la atención en los casos problemáticos. El modelo no sustituye — prioriza.

La próxima frontera en radiología es la integración radiómica-genómica: correlacionar características de imagen (como textura, volumen, heterogeneidad de un tumor en TC) con perfiles moleculares de la biopsia. Esta integración — llamada "radiogenómica" — puede permitir la caracterización molecular del tumor sin biopsia invasiva, a partir de la imagen.

Patología computacional: más allá de la mirada humana

En la histopatología — análisis de láminas de tejido para el diagnóstico de cáncer — modelos como Phikon fueron entrenados en millones de muestras de tejido y aprendieron representaciones de patrones microscópicos que no siempre son articulables por patólogos humanos. Estos modelos detectan características sutiles de agresividad tumoral, predicen la respuesta a tratamientos específicos e identifican subtipos moleculares a partir de la morfología celular.

MerMED-FM, lanzado en 2025, llevó este enfoque más lejos: un modelo de visión entrenado en 3.3 millones de imágenes médicas de más de 10 especialidades y 7 modalidades (TC, radiografía, ultrasonido, histopatología, fundoscopia, OCT, dermatología). La premisa es que un modelo entrenado en los múltiples lenguajes visuales de la medicina desarrolla representaciones más ricas que los modelos entrenados en una especialidad aislada.

El horizonte: la célula virtual

La meta más ambiciosa del campo es lo que Recursion y otros laboratorios llaman la "célula virtual" — un modelo computacional capaz de simular la respuesta de una célula humana a cualquier intervención (fármaco, edición genética, perturbación ambiental) antes de cualquier experimento físico. Si la "célula virtual" se vuelve viable, permitiría el triaje in silico de miles de millones de compuestos farmacológicos, personalizados para el genoma de un paciente específico.

Aún es una aspiración de investigación. Pero la trayectoria de 2024-2026 — desde la predicción de estructuras proteicas (AlphaFold 3), pasando por modelos genómicos de contexto largo (Evo 2), hasta la integración multimodal clínica (Med-Gemini) — dibuja el camino. La medicina de precisión que combina imagen, genómica, historial clínico y bioquímica en un único sistema de soporte a la decisión ya no es ciencia ficción. Es una cuestión de escala y validación.

Por qué la multimodalidad cambia la medicina

Med-Gemini: radiología, patología y genómica en una arquitectura

Radiología: el caso de uso más cercano a la escala

Patología computacional: más allá de la mirada humana

El horizonte: la célula virtual

Receba as publicações