Un nuevo enfoque, que lleva minutos en lugar de días, predice cómo una secuencia específica de ADN se organizará en el núcleo celular.
Todas las células del cuerpo contienen la misma secuencia genética, pero cada una de ellas expresa solo un subconjunto de esos genes. Estos patrones de expresión génica específicos de cada célula, que garantizan que una célula cerebral sea diferente de una célula cutánea, están determinados en parte por la estructura tridimensional del material genético, que controla la accesibilidad de cada gen.
Los químicos del MIT han ideado una nueva forma de determinar esas estructuras genómicas tridimensionales, utilizando inteligencia artificial generativa. Su técnica puede predecir miles de estructuras en apenas unos minutos, lo que la hace mucho más rápida que los métodos experimentales existentes para analizar las estructuras.
Utilizando esta técnica, los investigadores podrían estudiar más fácilmente cómo la organización 3D del genoma afecta los patrones de expresión y funciones genéticas de las células individuales.
“Nuestro objetivo era intentar predecir la estructura tridimensional del genoma a partir de la secuencia de ADN subyacente”, afirma Bin Zhang, profesor asociado de química y autor principal del estudio. “Ahora que podemos hacerlo, lo que pone a esta técnica a la par de las técnicas experimentales de vanguardia, realmente puede abrir muchas oportunidades interesantes”.
Los estudiantes de posgrado del MIT Greg Schuette y Zhuohan Lao son los autores principales del artículo, que aparece hoy en Science Advances .
De la secuencia a la estructura
Dentro del núcleo celular, el ADN y las proteínas forman un complejo llamado cromatina, que tiene varios niveles de organización, lo que permite a las células meter 2 metros de ADN en un núcleo que tiene solo una centésima de milímetro de diámetro. Largas hebras de ADN se enrollan alrededor de proteínas llamadas histonas, dando lugar a una estructura similar a las cuentas de un collar.
Las etiquetas químicas conocidas como modificaciones epigenéticas pueden adherirse al ADN en lugares específicos y estas etiquetas, que varían según el tipo de célula, afectan el plegamiento de la cromatina y la accesibilidad de los genes cercanos. Estas diferencias en la conformación de la cromatina ayudan a determinar qué genes se expresan en diferentes tipos de células o en diferentes momentos dentro de una célula determinada.
En los últimos 20 años, los científicos han desarrollado técnicas experimentales para determinar las estructuras de la cromatina. Una técnica ampliamente utilizada, conocida como Hi-C, consiste en unir las cadenas de ADN vecinas en el núcleo de la célula. Los investigadores pueden determinar qué segmentos están ubicados cerca uno del otro fragmentando el ADN en muchos fragmentos diminutos y secuenciándolos.
Este método se puede utilizar en poblaciones grandes de células para calcular una estructura promedio de una sección de cromatina, o en células individuales para determinar las estructuras dentro de esa célula específica. Sin embargo, Hi-C y técnicas similares requieren mucho trabajo y puede llevar aproximadamente una semana generar datos de una célula.
Para superar esas limitaciones, Zhang y sus estudiantes desarrollaron un modelo que aprovecha los avances recientes en inteligencia artificial generativa para crear una forma rápida y precisa de predecir las estructuras de la cromatina en células individuales. El modelo de inteligencia artificial que diseñaron puede analizar rápidamente secuencias de ADN y predecir las estructuras de la cromatina que esas secuencias podrían producir en una célula.
“El aprendizaje profundo es muy bueno para el reconocimiento de patrones”, afirma Zhang. “Nos permite analizar segmentos de ADN muy largos, miles de pares de bases, y descubrir cuál es la información importante codificada en esos pares de bases de ADN”.
ChromoGen, el modelo que crearon los investigadores, tiene dos componentes. El primero, un modelo de aprendizaje profundo al que se le enseña a “leer” el genoma, analiza la información codificada en la secuencia de ADN subyacente y los datos de accesibilidad de la cromatina, estos últimos ampliamente disponibles y específicos para cada tipo de célula.
El segundo componente es un modelo de IA generativo que predice conformaciones de cromatina físicamente precisas, tras haber sido entrenado con más de 11 millones de conformaciones de cromatina. Estos datos se generaron a partir de experimentos con Dip-C (una variante de Hi-C) en 16 células de una línea de linfocitos B humanos.
Una vez integrado, el primer componente informa al modelo generativo de qué manera el entorno específico del tipo celular influye en la formación de diferentes estructuras de cromatina, y este esquema captura de manera eficaz las relaciones entre secuencia y estructura. Para cada secuencia, los investigadores utilizan su modelo para generar muchas estructuras posibles. Esto se debe a que el ADN es una molécula muy desordenada, por lo que una sola secuencia de ADN puede dar lugar a muchas conformaciones posibles diferentes.
“Un factor que complica mucho la predicción de la estructura del genoma es que no hay una única solución a la que aspiramos. Hay una distribución de estructuras, sin importar qué parte del genoma estemos analizando. Predecir esa distribución estadística tan complicada y de alta dimensión es algo increíblemente difícil de hacer”, afirma Schuette.
Análisis rápido
Una vez entrenado, el modelo puede generar predicciones en una escala de tiempo mucho más rápida que Hi-C u otras técnicas experimentales.
“Mientras que uno podría pasar seis meses realizando experimentos para obtener unas pocas docenas de estructuras en un tipo de célula determinado, con nuestro modelo se pueden generar mil estructuras en una región particular en 20 minutos con una sola GPU”, afirma Schuette.
Después de entrenar su modelo, los investigadores lo utilizaron para generar predicciones de estructura para más de 2000 secuencias de ADN y luego las compararon con las estructuras determinadas experimentalmente para esas secuencias. Descubrieron que las estructuras generadas por el modelo eran iguales o muy similares a las observadas en los datos experimentales.
“Normalmente analizamos cientos o miles de conformaciones para cada secuencia, y eso nos da una representación razonable de la diversidad de estructuras que puede tener una región en particular”, dice Zhang. “Si repites tu experimento varias veces, en diferentes células, es muy probable que termines con una conformación muy diferente. Eso es lo que nuestro modelo intenta predecir”.
Los investigadores también descubrieron que el modelo podía hacer predicciones precisas para datos de tipos de células distintos de aquellos con los que fue entrenado. Esto sugiere que el modelo podría ser útil para analizar cómo difieren las estructuras de la cromatina entre tipos de células y cómo esas diferencias afectan su función. El modelo también podría usarse para explorar diferentes estados de la cromatina que pueden existir dentro de una sola célula y cómo esos cambios afectan la expresión genética.
“ChromoGen proporciona un nuevo marco para el descubrimiento impulsado por IA de los principios de plegamiento del genoma y demuestra que la IA generativa puede unir las características genómicas y epigenómicas con la estructura del genoma en 3D, lo que apunta a trabajos futuros sobre el estudio de la variación de la estructura y la función del genoma en una amplia gama de contextos biológicos”, dice Jian Ma, profesor de biología computacional en la Universidad Carnegie Mellon, que no participó en la investigación.
Otra posible aplicación sería explorar cómo las mutaciones en una secuencia particular de ADN cambian la conformación de la cromatina, lo que podría arrojar luz sobre cómo dichas mutaciones pueden causar enfermedades.
“Hay muchas preguntas interesantes que creo que podemos abordar con este tipo de modelo”, dice Zhang.
Los investigadores han puesto todos sus datos y el modelo a disposición de otros que deseen utilizarlos.
La investigación fue financiada por los Institutos Nacionales de Salud. MIT News. A. T. Traducido al español