Los virus están en todas partes: en el aire, en las aguas residuales, en los lagos y en los océanos, en los pastizales y en la madera en descomposición. Algunos prosperan en condiciones extremas, como en los respiraderos hidrotermales, en el hielo antártico y, posiblemente, incluso en el espacio exterior.
También son antiguas. Algunas son probablemente tan antiguas como las primeras células, o incluso más antiguas.
A pesar de haber coexistido con los virus desde el comienzo de nuestra especie, el universo viral sigue siendo en gran medida un misterio. Durante décadas, los científicos han reunido minuciosamente muestras de todo el mundo y han secuenciado su material genético. Pero los virus mutan rápidamente y estos esfuerzos solo rozan la superficie de la virosfera.
La mayor parte del material genético viral es “materia oscura” biológica, escribieron recientemente Mang Shi de la Universidad Sun Yat-sen y sus colegas en un nuevo artículo publicado en Cell .
Con la ayuda de la IA, el equipo está arrojando nueva luz sobre el mundo viral. La IA, llamada LucaProt, se basa en un gran modelo de lenguaje para dar sentido a fragmentos de material genético viral. Otro algoritmo analiza aún más los datos genéticos en fragmentos más «digeribles» para aumentar la eficacia.
Después de analizar casi 10.500 muestras (algunas de bases de datos anteriores y otras recopiladas durante el estudio), la IA detectó 70.458 nuevos virus de ARN en muestras de todo el mundo.
«De repente puedes ver cosas que antes no veías», dijo a Nature Artem Babaian, de la Universidad de Toronto, que no participó en el estudio .
Los virus tienen mala reputación. La pandemia de Covid-19 y la temporada anual de gripe ponen de relieve su lado destructivo. Pero también se pueden utilizar para combatir bacterias resistentes a los antibióticos , introducir terapias genéticas en las células o convertirse en vacunas.
Trazar el universo viral ofrece una vista panorámica de la evolución y mutación de los virus, con implicaciones no sólo para la biotecnología, sino también potencialmente para la lucha contra la próxima pandemia.
Volviéndose viral
En los seres humanos, el ADN contiene el código genético. El ADN se traduce en ARN (también formado por cuatro letras genéticas), que transporta la información genética a una fábrica celular para producir proteínas.
Los virus son diferentes. Algunos prescinden por completo del ADN y, en su lugar, codifican directamente su código genético en ARN. Suena extraño, pero ya conoces algunos de estos virus: el SARS-CoV-2, que causa la COVID-19, es un virus de ARN. Estos virus tienen proteínas de las que la ciencia sabe poco y también podrían ofrecer nuevos conocimientos sobre biología.
Durante décadas, los científicos han intentado descifrar la virosfera mediante la recolección de muestras. Las fuentes varían desde las más cotidianas (el agua de un arroyo local) hasta las más extremas, como el hielo antártico o el agua de las profundidades marinas. El ARN extraído de estas muestras se secuencia cuidadosamente y se deposita en bases de datos. Este método, llamado metagenómica, captura fragmentos de todo el ARN viral de un entorno.
Dar sentido a la mina de oro genética requiere más trabajo. Los métodos computacionales clásicos tienen dificultades para filtrar estas grandes bases de datos en busca de información significativa.
Entra en escena ESMFold . Desarrollado por Meta, el programa se basa en grandes modelos de lenguaje (la misma tecnología que impulsa ChatGPT de OpenAI y Gemini de Google) para predecir las estructuras de las proteínas en función de sus “letras” de aminoácidos. Métodos similares, como AlphaFold de DeepMind y RoseTTAFold de David Baker, les valieron recientemente a sus desarrolladores el Premio Nobel de Química 2024 .
ESMFold capta secuencias moleculares y predice las estructuras tridimensionales de las proteínas a nivel atómico. Para su primera tarea en la vida real, los científicos utilizaron la IA para descifrar la “materia oscura” de las proteínas de los microbios de los que menos sabemos. El año pasado, la IA predijo la estructura de más de 700 millones de proteínas de microorganismos. El diez por ciento eran completamente ajenas a cualquier otra descubierta anteriormente.
Tomando nota, el equipo de Shi se preguntó si una estrategia similar podría funcionar en el mundo de los virus de ARN.
En busca de virus
Los científicos han utilizado anteriormente la IA para extraer posibles nuevos virus de ARN a partir de petabytes de datos de secuenciación genética , una cantidad aproximadamente equivalente a 500 millones de fotografías de alta resolución.
Estos estudios se centraron en la ARN polimerasa dependiente de ARN, o RdRP. En este caso, las secuencias de ARN codifican las RdRP, una familia de proteínas que marcan la mayoría de los genomas de los virus de ARN. Un análisis inicial identificó casi 132.000 nuevos virus de ARN basándose en sus datos genéticos.
¿El problema? Los virus mutan rápidamente. Si las letras genéticas que codifican las RdRP cambian, la IA entrenada en esas secuencias puede no ser capaz de reconocer los virus mutados. El nuevo estudio abordó el problema combinando el enfoque anterior con ESMFold en una IA de dos canales.
El primer canal utiliza un modelo basado en transformadores, similar a ChatGPT, para extraer “palabras clave” de secuencias de aminoácidos que codifican las RdRP virales de una gran base de datos. Después de entrenar con las secuencias deseadas y algunas que se generaron aleatoriamente, la IA creó un vocabulario de aproximadamente 20.000 secuencias de proteínas que aparecen con frecuencia y que codifican las RdRP.
En comparación con los métodos anteriores, este paso divide las bibliotecas genéticas en secciones más digeribles, lo que facilita que la IA aborde secuencias genéticas más largas y detecte proteínas RdRP virales.
El segundo canal utiliza una versión de ESMFold, que es un lector lento pero cuidadoso. En lugar de leer rápidamente las palabras de proteínas, “lee” cada letra y predice cómo se conecta estructuralmente cada una con las demás para formar formas proteínicas en 3D. Este paso fundamenta la IA y le da una idea de cómo deberían verse las RdRP en los virus vivos.
LucaProt se entrenó con casi 6000 secuencias que codifican proteínas RdRP y más de 229 500 secuencias que se sabe que codifican diferentes proteínas. Al ser desafiada con un conjunto de datos de prueba, en el que los investigadores conocían las respuestas, la IA fue excepcionalmente precisa y arrojó falsos positivos solo el 0,014 por ciento de las veces.
La IA encontró 70.458 virus nuevos y únicos en potencia. Uno, aislado de la tierra, tenía un genoma sorprendentemente largo: «uno de los virus de ARN más largos identificados hasta la fecha», escribió el equipo. Otros podrían prosperar en aguas termales y lagos extremadamente salados.
La virosfera expandida agrega nuevos virus a los grupos virales conocidos, por ejemplo, Flaviviridae , que causa hepatitis o fiebre amarilla. LucaProt también identificó 60 grupos virales diferentes, cada uno muy diferente de todos los virus conocidos en la actualidad.
Esto no quiere decir que causen enfermedades, pero “se han pasado por alto en gran medida en proyectos anteriores de descubrimiento de virus de ARN”, escribió el equipo.
Para Babaian , el estudio descubrió “pequeños nichos de biodiversidad de virus de ARN que están realmente muy lejos en los confines del espacio evolutivo”.
¿Un éxito viral?
Los virus necesitan un huésped vivo para sobrevivir. El equipo está mejorando su IA para predecir estos huéspedes. La mayoría de los virus de ARN infectan a los eucariotas, que incluyen plantas, animales y humanos. Algunos virus también pueden infectar a las bacterias: su juego del gato y el ratón inspiró el editor genético CRISPR-Cas9.
“La historia evolutiva de los virus de ARN es al menos tan larga, si no más, que la de los organismos celulares”, escribieron los autores.
A menudo se pasa por alto la tercera rama de la vida, las arqueas. Estas formas de vida, que evolucionaron durante las primeras etapas de la vida en la Tierra, comparten similitudes con las bacterias y los eucariotas (por ejemplo, cómo se replica su material genético).
Pero las arqueas son una rama distinta de la vida que prospera en ambientes extremos, como las fuentes hidrotermales o el agua extremadamente salada. Hay indicios de que los virus de ARN también podrían infectar a las arqueas. De ser así, podría dar lugar a nuevos conocimientos sobre nuestro árbol de la vida y, como en el caso de CRISPR, podría conducir a nuevas biotecnologías. SingularityHug. F. S. traducido al español