MedGemma e o movimento de IA médica open source

Em maio de 2025, o Google lançou o MedGemma pelo programa Health AI Developer Foundations (HAI-DEF) — tornando disponível um modelo de linguagem médico open weight que equipes de saúde podem executar em infraestrutura própria, fine-tunar em dados próprios, e auditar completamente. O lançamento sinaliza uma mudança estratégica: IA médica não precisa mais ser exclusivamente propriedade de grandes plataformas. Hospitais, universidades e startups de saúde podem construir a partir de uma base sólida sem depender de APIs externas.

MedGemma: arquitetura e capacidades

O MedGemma é construído sobre a arquitetura Gemma 3 e existe em três variantes:

4B multimodal: Processa imagens e texto simultaneamente. Indicado para classificação de imagens médicas (raio-X, dermatologia, oftalmologia), resposta a perguntas sobre imagens clínicas e triagem inicial.

27B text-only: Modelo de linguagem puro focado em raciocínio clínico, revisão de literatura médica, resposta a perguntas clínicas estruturadas e apoio à decisão baseado em texto. Marcou 87.7% no MedQA — dentro da faixa de modelos muito maiores.

27B multimodal: Combina raciocínio clínico em texto com processamento de imagem e raciocínio longitudinal sobre registros eletrônicos de saúde (EHR). A variante mais completa para sistemas hospitalares.

O modelo pode ser executado on-premise — no Google Cloud Platform, em servidores próprios da instituição, ou em hardware local de alta performance. Isso resolve o principal obstáculo de adoção para hospitais com dados regulados por LGPD, HIPAA ou GDPR: os dados do paciente não precisam sair da infraestrutura da instituição.

MedSigLIP: o componente de visão

Junto com o MedGemma, o Google lançou o MedSigLIP — um modelo de visão-linguagem de 400 milhões de parâmetros especializado em imagens médicas. O MedSigLIP pode ser usado independentemente para classificação de imagens médicas sem o overhead do MedGemma completo. Para hospitais que precisam apenas de análise de raio-X ou dermatoscopia, sem geração de texto completo, é a opção de menor custo computacional.

OpenBioLLM: o concorrente open source

O OpenBioLLM-70B da Saama AI Research é a alternativa mais robusta ao MedGemma no espectro open source. Baseado na arquitetura Llama 3, marca 74% no MedQA USMLE, 75% no PubMedQA e 80.85% em casos clínicos complexos. Roda em uma única GPU A100. O modelo de 8B parâmetros é uma opção para ambientes com hardware mais limitado.

O diferencial do OpenBioLLM é a especialização em literatura biomédica: foi extensamente treinado em textos do PubMed, PMC e guidelines médicos internacionais. Para recuperação de informação de literatura científica e sumarização de artigos, supera modelos gerais de capacidade similar.

Meditron3: para contextos de baixo recurso

O Meditron, desenvolvido pela EPFL em parceria com Yale Medicine e o Comitê Internacional da Cruz Vermelha (ICRC), foi projetado para um caso de uso específico: saúde em contextos de recursos limitados. A terceira versão (Meditron3), baseada no Llama 3, foi lançada em 2025 e supera todos os modelos open source de tamanho equivalente no MedQA e MedMCQA.

O diferencial não é o benchmark de topo — o MedGemma 27B é claramente superior em capacidade absoluta. O diferencial é o tamanho: o Meditron3 roda em hardware que existe em hospitais de países de baixa e média renda, e foi treinado para incluir guidelines da OMS e protocolos internacionais relevantes para contextos onde o acesso a especialistas é limitado.

O achado contra-intuitivo: fine-tune nem sempre ganha

Uma descoberta importante da pesquisa de 2025 (arXiv:2408.13833) questiona a premissa básica dos modelos médicos especializados: modelos biomédicos fine-tunados não superam consistentemente modelos gerais de fronteira em dados médicos não vistos no treinamento.

A razão é que modelos como GPT-5 e Gemini 3.1 Pro, treinados em volumes massivos de texto, processaram quantidades enormes de literatura médica — potencialmente mais do que qualquer fine-tune médico especializado. Em benchmarks conhecidos, o fine-tune ganha porque os dados de benchmark vazaram para o treinamento. Em dados genuinamente novos, a diferença se reduz.

Isso não invalida o MedGemma ou o OpenBioLLM. Os modelos open source têm vantagens que vão além do score de benchmark: rodam on-premise (privacidade), são fine-tunáveis em dados próprios (especialização vertical), custam muito menos em escala (infraestrutura própria), e podem ser auditados completamente (conformidade regulatória).

Para uma instituição hospitalar que precisa processar 10 milhões de registros por ano em infraestrutura HIPAA-compliant, o MedGemma 27B a zero custo de API é uma proposta radicalmente diferente do GPT-5 a US$ 5.00/M tokens. Mesmo que o GPT-5 seja ligeiramente superior em qualidade, o argumento econômico e regulatório pode ser decisivo.

MedGemma: arquitetura e capacidades

MedSigLIP: o componente de visão

OpenBioLLM: o concorrente open source

Meditron3: para contextos de baixo recurso

O achado contra-intuitivo: fine-tune nem sempre ganha

Receba as publicações