El Portal de las Tecnologías para la Innovación

«Un motor de búsqueda de ADN»

Fuente:

Científicos informáticos de la ETH de Zúrich han desarrollado una herramienta digital capaz de buscar en millones de registros de ADN publicados en cuestión de segundos. Esto puede acelerar significativamente la investigación sobre la resistencia a los antibióticos y los patógenos desconocidos.

En resumen

  •  «MetaGraph», una nueva herramienta de la ETH, permite la búsqueda rápida de secuencias de ADN: de forma eficiente, precisa y a costes favorables.
  •  Para lograrlo, los investigadores utilizan índices que permiten estructurar mejor grandes volúmenes de datos, facilitando su búsqueda.
  • Como herramienta de código abierto, MetaGraph es de libre acceso y ofrece una amplia gama de aplicaciones potenciales. 

Es posible identificar enfermedades hereditarias raras en pacientes y detectar mutaciones específicas en células tumorales. La secuenciación del ADN revolucionó la investigación biomédica hace décadas. En los últimos años, los nuevos métodos de secuenciación (secuenciación de nueva generación), en particular, han dado lugar a numerosos avances científicos. En 2020/2021, por ejemplo, permitieron la rápida decodificación y el seguimiento global del genoma del SARS-CoV-2.

Mientras tanto, cada vez más investigadores publican los resultados del ADN secuenciado. Esto ha dado lugar a la creación de enormes volúmenes de datos, que se almacenan en bases de datos centrales como el SRA (Archivo de Lectura de Secuencias) estadounidense o el ENA (Archivo Europeo de Nucleótidos) europeo. Allí se almacenan alrededor de 100 petabytes de datos, aproximadamente la misma cantidad que todo el texto en internet, siendo un petabyte el equivalente a un millón de gigabytes.

Hasta la fecha, los científicos biomédicos han necesitado una enorme potencia informática y otros recursos para explorar esta cantidad de secuencias de ADN y compararlas con las suyas propias, lo que hace que la búsqueda eficiente en semejantes montañas de datos sea prácticamente imposible. Los informáticos de la ETH de Zúrich han resuelto este problema.

Búsqueda de texto completo en lugar de descargar conjuntos de datos completos

Los científicos han desarrollado un método que simplifica y agiliza considerablemente esta búsqueda. La herramienta digital «MetaGraph» busca en los datos brutos de todas las secuencias de ADN o ARN almacenadas en las bases de datos, como un buscador convencional de internet. Tras introducir el texto completo de la secuencia de interés en una máscara de búsqueda, los investigadores pueden averiguar en cuestión de segundos o minutos, según la consulta, dónde ya ha aparecido.

«Es una especie de Google del ADN», resume el profesor Gunnar Rätsch, científico de datos del Departamento de Informática de la ETH de Zúrich. Hasta ahora, los investigadores tenían que buscar metadatos descriptivos en las bases de datos. Para acceder a los datos sin procesar, debían descargar los conjuntos de datos correspondientes. Estas búsquedas eran incompletas, largas y costosas.

«MetaGraph» ofrece un coste comparativamente favorable, según afirman los investigadores en su estudio. La representación de todas las secuencias biológicas públicas cabría en unos pocos discos duros, mientras que las consultas más extensas no deberían costar más de 0,74 dólares por megabase.

Dado que el motor de búsqueda de ADN desarrollado por los investigadores de la ETH es preciso y eficiente, puede ayudar a acelerar la investigación genética, por ejemplo, en el caso de patógenos poco estudiados o nuevas pandemias. De esta manera, la herramienta podría convertirse en un catalizador en la investigación sobre la resistencia a los antibióticos, por ejemplo, identificando genes de resistencia o virus útiles capaces de destruir bacterias (conocidos como bacteriófagos) en las bases de datos.

Compresión por un factor de 300

En el estudio publicado el 8 de octubre en la revista Nature, los investigadores de la ETH demuestran el funcionamiento de MetaGraph: la herramienta indexa los datos y los presenta de forma comprimida. Esto se logra mediante gráficos matemáticos complejos que mejoran la estructura de los datos, de forma similar a programas de hojas de cálculo como Excel. «Matemáticamente hablando, es una enorme matriz con millones de columnas y billones de filas», afirma Rätsch.

La idea de permitir la búsqueda de grandes cantidades de datos mediante índices es una práctica habitual en la investigación informática. Sin embargo, la novedad del trabajo de los investigadores de la ETH reside en la compleja vinculación de datos brutos y metadatos, y la compresión por un factor de aproximadamente 300, similar a la de un resumen de un libro: ya no contiene cada palabra, pero todas las líneas argumentales y conexiones principales se mantienen intactas: más compactas, pero sin pérdida significativa de información.

«Estamos ampliando los límites de lo posible para mantener los conjuntos de datos lo más compactos posible sin perder información esencial», afirma el Dr. André Kahles , quien , al igual que Rätsch , es miembro del Grupo de Informática Biomédica de la ETH de Zúrich. A diferencia de otras máscaras de búsqueda de ADN que se investigan actualmente, el enfoque de los investigadores de la ETH es escalable. Esto significa que cuanto mayor sea la cantidad de datos consultados, menor será la potencia de procesamiento adicional que requiere la herramienta.

La mitad de los datos ya están disponibles

Los investigadores de la ETH presentaron MetaGraph por primera vez en 2020 y lo han mejorado continuamente desde entonces. La herramienta ya está disponible para consultas (enlace). Ofrece un motor de búsqueda de texto completo para millones de conjuntos de secuencias de ADN y ARN, así como proteínas de virus, bacterias, hongos, plantas, animales y humanos. Actualmente, casi la mitad de los conjuntos de datos de secuencias disponibles a nivel mundial están indexados. Según Gunnar Rätsch, el resto debería estarlo para finales de año. Dado que MetaGraph está disponible en código abierto, también podría ser de interés para las empresas farmacéuticas que gestionan grandes cantidades de datos de investigación internos.

Kahles incluso cree que es posible que algún día el buscador de ADN sea utilizado por particulares: «Al principio, ni siquiera Google sabía exactamente para qué servía un buscador. Si continúa el rápido desarrollo de la secuenciación de ADN, podría llegar a ser habitual identificar las plantas de tu balcón con mayor precisión».

Referencias

Karasikov, M., Mustafa, H., Danciu, D., Kulkov, O., Zimmermann, M., Barber, C., Rätsch, G. y Kahles, A.: Búsqueda eficiente y precisa en repositorios de secuencias a escala de petabasas. Nature 2025, doi:página externa10.1038/s41586-025-09603-w

ETH Zürich News. A. E. Traducido al español

Artículos relacionados

MIT

Uso de IA generativa para diversificar los campos de entrenamiento virtuales para robots

Una nueva herramienta de MIT CSAIL crea cocinas y salas de estar virtuales realistas donde los robots simulados pueden interactuar con modelos de objetos del mundo real, ampliando los datos de entrenamiento para los modelos básicos de los robots.

Chatbots como ChatGPT y Claude han experimentado un aumento vertiginoso en su uso en los últimos tres años gracias a su capacidad para ayudarte con una amplia gama de tareas. Ya sea que estés escribiendo sonetos de Shakespeare, depurando código o necesites la respuesta a una pregunta trivial, los sistemas de inteligencia artificial parecen tenerlo todo cubierto. ¿El origen de esta versatilidad? Miles de millones, o incluso billones, de datos textuales en internet.

Continuar leyendo...
MIT

El MIT Schwarzman College of Computing y MBZUAI lanzan una colaboración internacional para dar forma al futuro de la IA

El Programa de Investigación Colaborativa MIT–MBZUAI unirá a profesores y estudiantes de ambas instituciones para promover la IA y acelerar su uso en desafíos científicos y sociales urgentes.

El MIT Schwarzman College of Computing y la Universidad de Inteligencia Artificial Mohamed bin Zayed (MBZUAI) celebraron recientemente el lanzamiento del Programa de Investigación Colaborativa MIT-MBZUAI, un nuevo esfuerzo para fortalecer los componentes básicos de la inteligencia artificial y acelerar su uso en desafíos científicos y sociales apremiantes.

Continuar leyendo...
Scroll al inicio