Una IA similar a ChatGPT ahora puede diseñar genomas completamente nuevos desde cero
Toda la vida en la Tierra está escrita con cuatro “letras” de ADN. Una IA utilizó esas letras para idear un genoma completamente nuevo desde cero. La IA, llamada Evo , se inspiró en los grandes modelos de lenguaje (LLM, por sus siglas en inglés) que sustentan chatbots populares como ChatGPT de OpenAI y Claude de Anthropic. Estos modelos han conquistado al mundo por su habilidad para generar respuestas similares a las humanas. Desde tareas simples, como definir una palabra confusa, hasta resumir artículos científicos o soltar versos aptos para una batalla de rap, los LLM han entrado en nuestra vida cotidiana. Si los LLM pueden dominar los lenguajes escritos, ¿podrían hacer lo mismo con el lenguaje de la vida? Este mes, un equipo de la Universidad de Stanford y el Instituto Arc puso a prueba la teoría. En lugar de entrenar a Evo con contenido extraído de Internet, entrenaron a la IA con casi tres millones de genomas (que equivalen a miles de millones de líneas de código genético) de varios microbios y virus que infectan bacterias. Evo fue mejor que los modelos de IA anteriores a la hora de predecir cómo las mutaciones del material genético (ADN y ARN) podrían alterar la función. La IA también se puso creativa, ideando varios componentes nuevos para la herramienta de edición genética, CRISPR. Aún más impresionante fue que la IA generó un genoma de más de una megabase de longitud, aproximadamente el tamaño de algunos genomas bacterianos. “En general, Evo representa un modelo de base genómica”, escribió Christina Theodoris del Instituto Gladstone en San Francisco, que no participó en el trabajo. Una vez aprendido el vocabulario genómico, algoritmos como Evo podrían ayudar a los científicos a investigar la evolución, descifrar el funcionamiento interno de nuestras células, abordar misterios biológicos y acelerar la biología sintética mediante el diseño de nuevas biomoléculas complejas. El multiverso del ADN En comparación con las 26 letras del alfabeto inglés, el ADN solo tiene A, T, C y G. Estas «letras» son la abreviatura de las cuatro moléculas (adenina (A), timina (T), citosina (C) y guanina (G)) que, combinadas, forman nuestros genes. Si las LLM pueden conquistar los idiomas y generar nueva prosa, reescribir el manual genético con solo cuatro letras debería ser pan comido. No exactamente. El lenguaje humano está organizado en palabras, frases y oraciones para transmitir información. El ADN, en cambio, es más continuo y los componentes genéticos son complejos. Las mismas letras del ADN llevan “hilos paralelos de información”, escribió Theodoris. La más conocida es la función del ADN como portador genético. Una combinación específica de tres letras de ADN, llamada codón, codifica un bloque de construcción de proteínas. Estas se unen para formar las proteínas que forman nuestros tejidos y órganos, y dirigen el funcionamiento interno de nuestras células. Pero la misma secuencia genética, dependiendo de su estructura, también puede reclutar las moléculas necesarias para convertir los codones en proteínas. Y, a veces, las mismas letras de ADN pueden convertir un gen en proteínas diferentes, dependiendo de la salud y el entorno de la célula, o incluso desactivar el gen. En otras palabras, las letras del ADN contienen una gran cantidad de información sobre la complejidad del genoma, y cualquier cambio puede poner en peligro la función de una proteína, lo que deriva en enfermedades genéticas y otros problemas de salud. Esto hace que sea fundamental que la IA trabaje en la resolución de letras individuales del ADN. Pero es difícil para la IA capturar múltiples hilos de información a gran escala analizando únicamente las letras genéticas, en parte debido a los altos costos computacionales. Al igual que las escrituras romanas antiguas, el ADN es un continuo de letras sin puntuación clara. Por lo tanto, podría ser necesario «leer» cadenas completas para obtener una imagen general de su estructura y función, es decir, para descifrar el significado. En intentos anteriores se han “agrupado” letras de ADN en bloques, algo así como crear palabras artificiales. Si bien son más fáciles de procesar, estos métodos alteran la continuidad del ADN, lo que da como resultado la retención de “algunos hilos de información a expensas de otros”, escribió Theodoris. Fundamentos de construcción Evo abordó estos problemas de frente. Sus diseñadores se propusieron preservar todos los hilos de información, al tiempo que operaban con una resolución de una sola letra de ADN y con menores costos computacionales. El truco consistía en dar a Evo un contexto más amplio para cualquier fragmento dado del genoma aprovechando un tipo específico de configuración de IA utilizada en una familia de algoritmos llamada StripedHyena. En comparación con GPT-4 y otros modelos de IA, StripedHyena está diseñado para ser más rápido y más capaz de procesar entradas de gran tamaño, por ejemplo, grandes longitudes de ADN. Esto amplió la llamada «ventana de búsqueda» de Evo, lo que le permitió encontrar mejor patrones en un paisaje genético más amplio. Los investigadores entrenaron a la IA con una base de datos de casi tres millones de genomas de bacterias y virus que infectan a las bacterias, conocidos como fagos. También aprendió de plásmidos, fragmentos circulares de ADN que suelen encontrarse en las bacterias y que transmiten información genética entre microbios, lo que estimula la evolución y perpetúa la resistencia a los antibióticos. Una vez entrenado, el equipo enfrentó a Evo con otros modelos de IA para predecir cómo las mutaciones en una secuencia genética dada podrían afectar la función de la secuencia, como la codificación de proteínas. Aunque nunca se le dijo qué letras genéticas forman codones, Evo superó a un modelo de IA entrenado explícitamente para reconocer letras de ADN que codifican proteínas en la tarea. Sorprendentemente, Evo también predijo el efecto de las mutaciones en una amplia variedad de moléculas de ARN: por ejemplo, las que regulan la expresión genética, las que transportan los componentes básicos de las proteínas a la fábrica de producción de proteínas de la célula y las que actúan como enzimas para ajustar la función de las proteínas. Evo parecía haber adquirido una “comprensión