Formado en un conjunto de datos que incluye todas las especies vivas conocidas – y algunas extintas – Evo 2 puede predecir la forma y función de las proteínas en el ADN de todos los dominios de la vida y realizar experimentos en una fracción del tiempo que tomaría un laboratorio tradicional.
maginaImaginarser capaz de acelerar la evolución – hipotéticamente – para aprender qué genes podrían tener un efecto dañino o beneficioso sobre la salud humana. Imagine, además, poder generar rápidamente nuevas secuencias genéticas que podrían ayudar a curar enfermedades o resolver desafíos ambientales. Ahora, los científicos han desarrollado una herramienta de IA generativa que puede predecir la forma y función de las proteínas codificadas en el ADN de todos los dominios de la vida, identificar moléculas que podrían ser útiles para la bioingeniería y la medicina, y permitir a los laboratorios ejecutar docenas de otros experimentos estándar con una consulta virtual – en minutos u horas en lugar de años (o milenios).
La herramienta de código abierto de acceso completo, conocida como Evo 2, fue desarrollada por un equipo multiinstitucional codirigido por Stanfords Hie Brian, un profesor asistente de ingeniería química y un profesor en Ciencia de Datos de Stanford. Evo 2 fue entrenado en un conjunto de datos que incluye todas las especies vivas conocidas, incluidos humanos, plantas, bacterias, amebas e incluso algunas especies extintas. Stanford Report habló con Hie sobre las capacidades avanzadas de Evo 2’, por qué el mundo científico está tan ansioso por tener en sus manos esta nueva herramienta y cómo Evo 2 podría remodelar las ciencias biológicas.

De izquierda a derecha: Michael Poli, Brian Hie y Garyk Brixi. La biología está escrita en una combinación de As, Cs, Gs y Ts que puede ser difícil de entender. El equipo de Evo2, codirigido por el Profesor Asistente Brian Hie, tiene como objetivo hacer que el lenguaje de la biología sea más accesible para los investigadores. | Video Kurt Hickman; imagen: Andrew Brodhead
¿Puedes darnos la versión lay de cómo funciona Evo 2?
Toda la vida está codificada en el ADN utilizando solo cuatro productos químicos, conocidos como nucleótidos. Estas moléculas complejas se abrevian usando las letras A, C, G y T. El genoma humano, de 3 mil millones de nucleótidos de largo, es solo una cadena de estas cuatro letras. Ahora, si imaginas el ADN como los personajes de un libro que tiene 3 mil millones de letras de largo, los genes individuales son las palabras. Se escriben de manera diferente. Algunos tienen más letras que otros. Y tienen diferentes propósitos y significados – es decir, tienen diferentes funciones.
Con la IA, podemos buscar patrones en todo ese código y usarlo para predecir cuál es el siguiente nucleótido en la secuencia. De esta manera, Evo 2 es capaz de generar – para escribir – nuevo código genético que nunca antes había existido. Con Evo 2, puede ingresar una secuencia de hasta 1 millón de nucleótidos. La ventana de un millón de nucleótidos en biología es importante, ya que nos permite explorar interacciones de larga distancia entre dos o más genes que pueden no estar físicamente cerca uno del otro en la molécula de ADN. La ventana de contexto más larga podría permitirnos detectar conexiones entre estos colaboradores de larga distancia que ni siquiera conoceríamos con una ventana más corta.
Cómo es Evo 2 diferente de Evo 1 – que salió el año pasado – ¿y cómo avanzaste la tecnología tan rápido?
Honestamente, Evo 1 fue más efectivo de lo que pensábamos que sería. Evo 1 fue entrenado en solo 113,000 genomas de formas de vida más simples como bacterias y arqueas, conocidos como procariotas.
Evo 2, por otro lado, también incluye los genomas conocidos de aproximadamente 15,000 plantas y animales – los eucariotas – que incluye humanos. Nuestro conjunto de datos ahora se ha expandido de aproximadamente 300 mil millones de nucleótidos a casi 9 billones con Evo 2. En términos de seguridad, hemos dejado de lado los genomas de los virus para evitar que Evo 2 se use para crear enfermedades nuevas o más peligrosas. Es como una instantánea representativa de todas las especies en la Tierra. Debido a que tiene el potencial de mejorar las tareas relacionadas con las enfermedades humanas, sentimos que necesitábamos compartir Evo 2 rápidamente.

Claire Scully
¿Cómo es Evo 2 como ChatGPT?
En un procesador de lenguaje natural, como ChatGPT, puede solicitarlo con un poco de texto, y completará automáticamente la oración en función de los patrones de palabras escritas anteriormente. Evo 2 hace esto con ADN. Si desea diseñar un nuevo gen, solicite el modelo con el comienzo de una secuencia genética de pares de bases, y Evo 2 autocompletará el gen.
A veces, esa finalización se verá exactamente como un gen que se encuentra en la naturaleza, pero otras veces el modelo hará algunas mejoras o escribirá el gen de una manera diferente a la que ha sucedido en la historia evolutiva. En el mundo real, estas mutaciones ocurren por casualidad. Con Evo 2, podemos ser más directos y dirigirnos hacia mutaciones que tienen funciones útiles. Evo 2 también incluye modelos de aprendizaje automático que le dirán si la secuencia existe en la naturaleza y predecirán cómo funcionará esta nueva secuencia en la vida real. Luego entramos en el laboratorio y sintetizamos el ADN e lo insertamos en una célula viva para probarlo utilizando una tecnología de edición de genes como CRISPR. Esencialmente, Evo 2 está acelerando la evolución, proporcionando nuevos caminos genéticos prometedores para que podamos explorar.
¿Cómo esperas que otros científicos usen Evo 2?
Esperamos que Evo 2 algún día tenga importancia clínica. Es realmente bueno en el descubrimiento. Evo 2 podría ayudar a predecir qué mutaciones conducen a la patogenicidad y la enfermedad. Todos tienen mutaciones aleatorias en su ADN y, en su mayoría, son inofensivos. Pero en raras ocasiones, causarán cáncer u otra enfermedad. El modelo es realmente muy bueno para distinguir qué mutaciones son solo variaciones aleatorias e inofensivas y cuáles causan enfermedades. La última área que esperamos es usar Evo 2 para diseñar nuevas secuencias genéticas con funciones específicas de interés. Otro paso relevante es integrar estos modelos con modelos de biología de sistemas que nos ayudarían a aprender sobre las interacciones entre dos o más genes para causar enfermedades.
¿Puedes hablar sobre la colaboración necesaria para hacer que algo como Evo 2 suceda?
Algo de esta escala no puede ser hecho por una sola persona. Las tres instituciones principales involucradas son Stanford, NVIDIA –, que hace que los chips de computadora y el software de IA lo ejecuten – y el Instituto Arcuna organización sin fines de lucro de investigación biomédica que es en sí misma una colaboración entre Stanford, la Universidad de California, Berkeley y la Universidad de California, San Francisco.
En términos de personal, teníamos tres subequipos. Primero, el equipo de aprendizaje automático se centró en entrenar el modelo y asegurarse de que las computadoras funcionaran de manera eficiente. Luego, una vez que entrena un modelo, debe saber que realmente funciona según lo previsto. Así que hay un equipo de biólogos – biólogos computacionales, moleculares, de sistemas, procariotas, eucariotas – para asegurarse de que la información que estamos recibiendo es valiosa y utilizable. Y, por último, tenemos un equipo de biología experimental que sintetiza el nuevo ADN, lo coloca en las células y prueba las células para asegurarse de que lo que hemos creado funcione en la vida real. Todo es un trabajo muy duro, y estoy muy agradecido a todos en el equipo por su ayuda. Stanford Report. A. M. Traducido al español