IA multimodal na medicina: radiologia, patologia e o futuro da precisão genômica

O Med-Gemini-Polygenic, modelo do Google DeepMind, previu risco de depressão, AVC, glaucoma, artrite reumatoide, mortalidade geral, doença arterial coronariana, DPOC e diabetes tipo 2 a partir de dados genômicos — e superou os escores poligênicos lineares tradicionais em todos os oito. Para seis condições adicionais, fez previsões sem ter sido treinado especificamente para elas. Isso é medicina de precisão funcionando com IA: não só classifica melhor — generaliza.

Por que multimodalidade muda a medicina

A prática médica nunca foi monomodal. Um diagnóstico de câncer de pulmão envolve: imagem de tomografia (visual), laudo radiológico (texto), biópsia com imunohistoquímica (imagem microscópica + dados moleculares), histórico do paciente (texto), exames de sangue (dados numéricos), e análise genômica tumoral (sequência). Processar cada modalidade separadamente — com ferramentas distintas, interpretadas por especialistas distintos — é como ler um livro uma letra por vez.

Modelos multimodais que integram todas essas fontes em uma única inferência têm o potencial de capturar correlações entre modalidades que especialistas humanos não conseguem sistematizar. Um radiologista experiente integra intuitivamente o que vê na imagem com o histórico do paciente. Um modelo treinado em milhões de casos pode sistematizar esse processo de forma escalável.

Med-Gemini: radiologia, patologia e genômica em uma arquitetura

O Med-Gemini do Google DeepMind é a família de modelos que demonstra esse potencial de forma mais abrangente documentada até 2026. Está organizado em quatro sub-modelos:

Med-Gemini-L (texto e contexto longo): Marca 91.1% no MedQA — mais 4.6 pontos percentuais que o predecessor Med-PaLM 2. Usa busca web guiada por incerteza para integrar literatura médica atualizada. Superou o GPT-4 em todos os 14 benchmarks onde comparação direta foi possível.

Med-Gemini-2D (imagens médicas 2D): Treinado em raio-X torácico, fatias de TC, lâminas de histopatologia, imagens de oftalmologia e dermatologia. Gera laudos de raio-X superando o estado da arte anterior em até 12% para exames normais e anormais. Os radiologistas avaliaram 57% dos laudos gerados em exames normais como equivalentes ou superiores aos laudos originais — um resultado que, em 2024, seria considerado implausível.

Med-Gemini-3D (imagens volumétricas 3D): Processa TC volumétrica completa — não cortes individuais. Mais da metade dos laudos de TC gerados foi avaliada por radiologistas como equivalente em recomendações de conduta ao que um radiologista produziria.

Med-Gemini-Polygenic (dados genômicos): Prevê resultados de saúde a partir de dados de poligenismo — combinações de variantes genéticas de baixo efeito individual que juntas predizem risco de doença. Supera os modelos lineares tradicionais em 8 condições e generaliza para 6 adicionais não incluídas no treinamento.

O Med-Gemini não é um produto disponível publicamente. Funciona por meio de parcerias de pesquisa com o Google Cloud para saúde. O MedGemma (descrito no artigo anterior desta série) é a versão open weight derivada, disponível para desenvolvedores.

Radiologia: o caso de uso mais próximo da escala

De todas as especialidades médicas, a radiologia é onde a IA chegou mais perto de impacto clínico real. A FDA autorizou mais de 950 dispositivos médicos com IA até início de 2026, e a maioria está em radiologia — especialmente detecção de nódulos pulmonares em TC, análise de mamografia, e triagem de AVC em imagens de TC de crânio.

Modelos atuais podem detectar achados específicos em imagens com acurácia comparável a especialistas. O ganho de produtividade é significativo: um radiologista pode revisar 30 TCs por hora; com IA fazendo uma pré-classificação (normal/anormal/urgente), ele pode revisar 60, concentrando atenção nos casos problemáticos. O modelo não substitui — prioriza.

A próxima fronteira em radiologia é a integração radiômica-genômica: correlacionar características de imagem (como textura, volume, heterogeneidade de um tumor em TC) com perfis moleculares da biópsia. Essa integração — chamada "radiogenômica" — pode permitir caracterização molecular do tumor sem biópsia invasiva, a partir da imagem.

Patologia computacional: além do olhar humano

Na histopatologia — análise de lâminas de tecido para diagnóstico de câncer — modelos como o Phikon foram treinados em milhões de amostras de tecido e aprenderam representações de padrões microscópicos que nem sempre são articuláveis por patologistas humanos. Esses modelos detectam características sutis de agressividade tumoral, predizem resposta a tratamentos específicos e identificam subtipos moleculares a partir da morfologia celular.

O MerMED-FM, lançado em 2025, levou essa abordagem mais longe: um modelo de visão treinado em 3.3 milhões de imagens médicas de mais de 10 especialidades e 7 modalidades (TC, raio-X, ultrassom, histopatologia, fundoscopia, OCT, dermatologia). A premissa é que um modelo treinado nas múltiplas linguagens visuais da medicina desenvolve representações mais ricas do que modelos treinados em uma especialidade isolada.

O horizonte: a célula virtual

A meta mais ambiciosa do campo é o que Recursion e outros laboratórios chamam de "célula virtual" — um modelo computacional capaz de simular a resposta de uma célula humana a qualquer intervenção (fármaco, edição genética, perturbação ambiental) antes de qualquer experimento físico. Se a "célula virtual" se tornar viável, ela permitiria triagem in silico de bilhões de compostos farmacológicos, personalizados para o genoma de um paciente específico.

Ainda é aspiração de pesquisa. Mas a trajetória de 2024-2026 — desde previsão de estruturas proteicas (AlphaFold 3), passando por modelos genômicos de contexto longo (Evo 2), até integração multimodal clínica (Med-Gemini) — desenha o caminho. A medicina de precisão que combina imagem, genômica, histórico clínico e bioquímica em um único sistema de suporte à decisão não é mais ficção científica. É uma questão de escala e validação.

Por que multimodalidade muda a medicina

Med-Gemini: radiologia, patologia e genômica em uma arquitetura

Radiologia: o caso de uso mais próximo da escala

Patologia computacional: além do olhar humano

O horizonte: a célula virtual

Receba as publicações