ESM3, Evo 2 e os modelos que aprendem a linguagem da vida

Proteínas são instruções. DNA é o código-fonte. A hipótese que guia a biologia computacional há décadas é que, se modelos de linguagem conseguem aprender a gramática do texto humano, talvez possam aprender também a gramática das moléculas da vida. Em 2025, dois lançamentos tornaram essa hipótese menos teórica e mais experimental: o ESM3 da EvolutionaryScale e o Evo 2 do Arc Institute. Ambos publicaram resultados que, há cinco anos, seriam considerados ficção científica.

ESM3: o modelo que projetou uma proteína 500 milhões de anos à frente

O ESM3 é um modelo de 98 bilhões de parâmetros treinado para entender proteínas em três dimensões simultaneamente: sequência de aminoácidos (o texto), estrutura tridimensional (a forma) e função biológica (o significado). Publicado na Science em janeiro de 2025, o modelo representa um salto qualitativo sobre seu predecessor — que só processava sequências.

O resultado mais impressionante do paper: o ESM3 projetou uma proteína fluorescente verde (GFP) completamente nova — sem nunca ter "visto" essa proteína no treinamento — que funciona como esperado, mas é tão diferente das GFPs naturais conhecidas que os pesquisadores estimaram que ela equivaleria a 500 milhões de anos de evolução natural para surgir de forma espontânea.

Isso não é "gerar uma proteína parecida com as que existem". É gerar uma proteína que não existe na natureza, que pertence a uma classe conhecida, e que funciona corretamente. A diferença é a mesma que há entre um modelo de linguagem que gera texto semelhante a textos existentes e um que gera um novo gênero literário que ainda não existia.

A API do ESM3 foi aberta em beta público em janeiro de 2025, disponível também no Amazon Bedrock, SageMaker, AWS HealthOmics e NVIDIA BioNeMo. Pesquisadores de qualquer laboratório com acesso à internet podem agora consultar o modelo para design de proteínas.

Evo 2: 40 bilhões de parâmetros para ler o genoma completo

O Evo 2, publicado na Nature em 2025 pelo Arc Institute em colaboração com NVIDIA, Stanford, UCSF, UC Berkeley e Universidade de Washington, é hoje o maior modelo de IA biológica disponível publicamente com pesos abertos. Tem 40 bilhões de parâmetros e foi treinado em 9 trilhões de nucleotídeos — a sequência completa de DNA de centenas de milhares de organismos de todos os domínios da vida.

A capacidade mais inédita é o contexto de 1 megabase — 1 milhão de nucleotídeos de uma vez. Para comparação, o gene humano médio tem cerca de 27 mil pares de bases. Com 1 megabase de contexto, o Evo 2 pode analisar um gene completo com todas as suas regiões regulatórias, regiões não-codificantes vizinhas e elementos de controle distais em uma única inferência.

Capacidades verificadas em zero-shot (sem fine-tuning específico):

Previsão de essencialidade de genes — determina quais genes são críticos para a sobrevivência de uma célula
Previsão de mutações patogênicas em resolução de nucleotídeo único
Geração de genomas mitocondriais eucarióticos funcionais, verificados com AlphaFold 3

Este último ponto merece atenção: o modelo não apenas previu estruturas — gerou sequências de DNA de genomas complexos que, quando "traduzidas" em proteínas pelas ferramentas de AlphaFold, produzem estruturas 3D plausíveis e funcionais. É generação biológica, não apenas classificação.

ProGen3: design de anticorpos em uma etapa

O ProGen3 da Profluent Bio, apresentado como Spotlight no NeurIPS 2025, é um modelo generativo de proteínas treinado em 3.4 bilhões de sequências de tamanho completo, escalando de 339 milhões a 46 bilhões de parâmetros. O modelo usa uma arquitetura de Masked Language Model generalizada (GLM) que preenche qualquer porção de uma sequência proteica condicionado no contexto ao redor.

A aplicação mais direta é o OpenAntibodies — uma plataforma para design de anticorpos em single-shot para alvos moleculares específicos. O portfólio cobre 20 alvos de drogas relevantes que correspondem a 7 milhões de pacientes e US$ 660 bilhões em vendas históricas de medicamentos. O ProGen3 também projetou um editor genético ultra-compacto, significativamente menor que o CRISPR-Cas9 padrão — com implicações para terapias genéticas que precisam ser entregues in vivo em veículos de tamanho limitado.

O que esses modelos mudam na prática

Para pesquisadores de farmacologia, a mudança mais imediata é o custo de hipóteses. Antes, testar se uma determinada sequência de aminoácidos produzia uma proteína funcional com determinada estrutura exigia semanas de trabalho experimental. Com ESM3 ou Evo 2, esse screening pode ser feito em horas computacionalmente — filtrando de milhões de candidatos para dezenas que merecem síntese e teste físico.

Para desenvolvimento de antibióticos — uma área crítica dado o aumento de resistência antimicrobiana — a capacidade de gerar e avaliar rapidamente novas estruturas proteicas de patógenos como alvos é potencialmente transformadora. O Evo 2 pode analisar sequências genômicas completas de bactérias resistentes e identificar proteínas essenciais que não têm homologia com proteínas humanas — candidatos ideais para antibióticos com menos efeitos colaterais.

O que esses modelos não substituem: a validação experimental. Um modelo pode prever que uma proteína é funcional — apenas a síntese e o teste em laboratório confirmam. O valor está em comprimir drasticamente a lista de candidatos para teste físico, não em eliminar o teste.

ESM3: o modelo que projetou uma proteína 500 milhões de anos à frente

Evo 2: 40 bilhões de parâmetros para ler o genoma completo

ProGen3: design de anticorpos em uma etapa

O que esses modelos mudam na prática

Recibe las publicaciones