ESM3, Evo 2 y los modelos que aprenden el lenguaje de la vida

Las proteínas son instrucciones. El ADN es el código fuente. La hipótesis que guía la biología computacional desde hace décadas es que, si los modelos de lenguaje consiguen aprender la gramática del texto humano, quizá puedan aprender también la gramática de las moléculas de la vida. En 2025, dos lanzamientos hicieron esta hipótesis menos teórica y más experimental: ESM3 de EvolutionaryScale y Evo 2 del Arc Institute. Ambos publicaron resultados que, hace cinco años, se habrían considerado ciencia ficción.

ESM3: el modelo que diseñó una proteína 500 millones de años por delante

ESM3 es un modelo de 98 mil millones de parámetros entrenado para entender proteínas en tres dimensiones simultáneamente: secuencia de aminoácidos (el texto), estructura tridimensional (la forma) y función biológica (el significado). Publicado en Science en enero de 2025, el modelo representa un salto cualitativo sobre su predecesor — que solo procesaba secuencias.

El resultado más impresionante del paper: ESM3 diseñó una proteína fluorescente verde (GFP) completamente nueva — sin haber "visto" nunca esa proteína en el entrenamiento — que funciona como se espera, pero es tan diferente de las GFP naturales conocidas que los investigadores estimaron que equivaldría a 500 millones de años de evolución natural para surgir de forma espontánea.

Esto no es "generar una proteína parecida a las que existen". Es generar una proteína que no existe en la naturaleza, que pertenece a una clase conocida, y que funciona correctamente. La diferencia es la misma que hay entre un modelo de lenguaje que genera texto similar a textos existentes y uno que genera un nuevo género literario que aún no existía.

La API de ESM3 se abrió en beta público en enero de 2025, disponible también en Amazon Bedrock, SageMaker, AWS HealthOmics y NVIDIA BioNeMo. Investigadores de cualquier laboratorio con acceso a internet pueden ahora consultar el modelo para el diseño de proteínas.

Evo 2: 40 mil millones de parámetros para leer el genoma completo

Evo 2, publicado en Nature en 2025 por el Arc Institute en colaboración con NVIDIA, Stanford, UCSF, UC Berkeley y la Universidad de Washington, es hoy el mayor modelo de IA biológica disponible públicamente con pesos abiertos. Tiene 40 mil millones de parámetros y fue entrenado en 9 billones de nucleótidos — la secuencia completa de ADN de cientos de miles de organismos de todos los dominios de la vida.

La capacidad más inédita es el contexto de 1 megabase — 1 millón de nucleótidos a la vez. Para comparar, el gen humano medio tiene cerca de 27 mil pares de bases. Con 1 megabase de contexto, Evo 2 puede analizar un gen completo con todas sus regiones regulatorias, regiones no codificantes vecinas y elementos de control distales en una única inferencia.

Capacidades verificadas en zero-shot (sin fine-tuning específico):

Predicción de esencialidad de genes — determina qué genes son críticos para la supervivencia de una célula
Predicción de mutaciones patogénicas en resolución de nucleótido único
Generación de genomas mitocondriales eucarióticos funcionales, verificados con AlphaFold 3

Este último punto merece atención: el modelo no solo predijo estructuras — generó secuencias de ADN de genomas complejos que, cuando se "traducen" en proteínas mediante las herramientas de AlphaFold, producen estructuras 3D plausibles y funcionales. Es generación biológica, no solo clasificación.

ProGen3: diseño de anticuerpos en una etapa

ProGen3 de Profluent Bio, presentado como Spotlight en NeurIPS 2025, es un modelo generativo de proteínas entrenado en 3.4 mil millones de secuencias de tamaño completo, escalando de 339 millones a 46 mil millones de parámetros. El modelo usa una arquitectura de Masked Language Model generalizada (GLM) que rellena cualquier porción de una secuencia proteica condicionada al contexto a su alrededor.

La aplicación más directa es OpenAntibodies — una plataforma para el diseño de anticuerpos en single-shot para objetivos moleculares específicos. El portafolio cubre 20 objetivos de fármacos relevantes que corresponden a 7 millones de pacientes y US$ 660 mil millones en ventas históricas de medicamentos. ProGen3 también diseñó un editor genético ultracompacto, significativamente más pequeño que el CRISPR-Cas9 estándar — con implicaciones para terapias génicas que necesitan ser entregadas in vivo en vehículos de tamaño limitado.

Lo que estos modelos cambian en la práctica

Para los investigadores de farmacología, el cambio más inmediato es el costo de las hipótesis. Antes, probar si una determinada secuencia de aminoácidos producía una proteína funcional con determinada estructura exigía semanas de trabajo experimental. Con ESM3 o Evo 2, ese screening puede hacerse en horas de forma computacional — filtrando de millones de candidatos a decenas que merecen síntesis y prueba física.

Para el desarrollo de antibióticos — un área crítica dado el aumento de la resistencia antimicrobiana — la capacidad de generar y evaluar rápidamente nuevas estructuras proteicas de patógenos como objetivos es potencialmente transformadora. Evo 2 puede analizar secuencias genómicas completas de bacterias resistentes e identificar proteínas esenciales que no tienen homología con proteínas humanas — candidatos ideales para antibióticos con menos efectos secundarios.

Lo que estos modelos no sustituyen: la validación experimental. Un modelo puede predecir que una proteína es funcional — solo la síntesis y la prueba en laboratorio lo confirman. El valor está en comprimir drásticamente la lista de candidatos para prueba física, no en eliminar la prueba.

ESM3: el modelo que diseñó una proteína 500 millones de años por delante

Evo 2: 40 mil millones de parámetros para leer el genoma completo

ProGen3: diseño de anticuerpos en una etapa

Lo que estos modelos cambian en la práctica

Get the latest posts