A partir de un solo fotograma en una simulación, un nuevo sistema utiliza IA generativa para emular la dinámica de las moléculas, conectando estructuras moleculares estáticas y convirtiendo imágenes borrosas en vídeos.
A medida que han crecido las capacidades de los modelos de IA generativa, probablemente hayas visto cómo pueden transformar indicaciones de texto simples en imágenes hiperrealistas e incluso en videoclips extendidos.
Más recientemente, la IA generativa ha demostrado tener potencial para ayudar a los químicos y biólogos a explorar moléculas estáticas, como las proteínas y el ADN. Modelos como AlphaFold pueden predecir estructuras moleculares para acelerar el descubrimiento de fármacos, y el “ RFdiffusion ” asistido por el MIT, por ejemplo, puede ayudar a diseñar nuevas proteínas. Sin embargo, un desafío es que las moléculas están en constante movimiento y se sacuden, lo que es importante modelar al construir nuevas proteínas y fármacos. Simular estos movimientos en una computadora usando física (una técnica conocida como dinámica molecular) puede ser muy costoso, y requiere miles de millones de pasos de tiempo en supercomputadoras.
Como un paso hacia la simulación más eficiente de estos comportamientos, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y del Departamento de Matemáticas del MIT han desarrollado un modelo generativo que aprende de datos anteriores. El sistema del equipo, llamado MDGen, puede tomar un fotograma de una molécula 3D y simular lo que sucederá a continuación como un video, conectar imágenes fijas separadas e incluso completar fotogramas faltantes. Al pulsar el botón de “reproducción” en las moléculas, la herramienta podría ayudar a los químicos a diseñar nuevas moléculas y estudiar de cerca cómo interactuarían sus prototipos de fármacos para el cáncer y otras enfermedades con la estructura molecular en la que pretende influir. El
coautor principal Bowen Jing SM ’22 dice que MDGen es una prueba de concepto temprana, pero sugiere el comienzo de una nueva y emocionante dirección de investigación. “Al principio, los modelos de IA generativa producían videos algo simples, como una persona parpadeando o un perro moviendo la cola”, dice Jing, estudiante de doctorado en CSAIL. “Avanzamos unos años y ahora tenemos modelos asombrosos como Sora o Veo que pueden ser útiles en todo tipo de formas interesantes. Esperamos inculcar una visión similar para el mundo molecular, donde las trayectorias dinámicas son los videos. Por ejemplo, puedes darle al modelo el primer y el décimo fotograma, y animará lo que está entre ellos, o puede eliminar el ruido de un video molecular y adivinar lo que estaba oculto”.
Los investigadores afirman que MDGen representa un cambio de paradigma con respecto a trabajos comparables previos con IA generativa, ya que permite casos de uso mucho más amplios. Los enfoques anteriores eran «autorregresivos», lo que significa que se basaban en el fotograma anterior para construir el siguiente, comenzando desde el primer fotograma para crear una secuencia de vídeo. Por el contrario, MDGen genera los fotogramas en paralelo con la difusión. Esto significa que MDGen se puede utilizar para, por ejemplo, conectar fotogramas en los puntos finales o «sobremuestrear» una trayectoria de baja velocidad de fotogramas además de pulsar el botón de reproducción en el fotograma inicial.
Este trabajo se presentó en un artículo que se mostró en la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS) el pasado mes de diciembre. El verano pasado, recibió un premio por su potencial impacto comercial en el Taller ML4LMS de la Conferencia Internacional sobre Aprendizaje Automático.
Algunos pequeños pasos adelante para la dinámica molecular
En los experimentos, Jing y sus colegas descubrieron que las simulaciones de MDGen eran similares a ejecutar las simulaciones físicas directamente, mientras que producían trayectorias de 10 a 100 veces más rápido.
El equipo primero probó la capacidad de su modelo para tomar un marco 3D de una molécula y generar los siguientes 100 nanosegundos. Su sistema unió bloques sucesivos de 10 nanosegundos para que estas generaciones alcanzaran esa duración. El equipo descubrió que MDGen podía competir con la precisión de un modelo de referencia, al tiempo que completaba el proceso de generación de video en aproximadamente un minuto, una mera fracción de las tres horas que le tomó al modelo de referencia simular la misma dinámica.
Cuando se le dio el primer y el último fotograma de una secuencia de un nanosegundo, MDGen también modeló los pasos intermedios. El sistema de los investigadores demostró un grado de realismo en más de 100.000 predicciones diferentes: simuló trayectorias moleculares más probables que sus líneas de base en clips más cortos que 100 nanosegundos. En estas pruebas, MDGen también indicó una capacidad de generalizar sobre péptidos que no había visto antes.
Las capacidades de MDGen también incluyen la simulación de fotogramas dentro de fotogramas, «sobremuestreando» los pasos entre cada nanosegundo para capturar fenómenos moleculares más rápidos de manera más adecuada. Incluso puede «repintar» estructuras de moléculas, restaurando información sobre ellas que se eliminó. Estas características podrían eventualmente ser utilizadas por los investigadores para diseñar proteínas basadas en una especificación de cómo deberían moverse las diferentes partes de la molécula.
Jugando con la dinámica de las proteínas
Jing y el coautor principal Hannes Stärk afirman que MDGen es una señal temprana de progreso hacia la generación de dinámicas moleculares de manera más eficiente. Sin embargo, carecen de los datos necesarios para que estos modelos tengan un impacto inmediato en el diseño de fármacos o moléculas que induzcan los movimientos que los químicos querrán ver en una estructura específica.
Los investigadores pretenden ampliar MDGen para que pueda pasar de modelar moléculas a predecir cómo cambiarán las proteínas con el tiempo. “Actualmente, estamos utilizando sistemas de juguete”, dice Stärk, también estudiante de doctorado en CSAIL. “Para mejorar las capacidades predictivas de MDGen para modelar proteínas, necesitaremos basarnos en la arquitectura y los datos actuales disponibles. Todavía no tenemos un repositorio a escala de YouTube para ese tipo de simulaciones, por lo que esperamos desarrollar un método de aprendizaje automático independiente que pueda acelerar el proceso de recopilación de datos para nuestro modelo”.
Por ahora, MDGen presenta un camino alentador para el modelado de cambios moleculares invisibles a simple vista. Los químicos también podrían usar estas simulaciones para profundizar en el comportamiento de prototipos de medicamentos para enfermedades como el cáncer o la tuberculosis.
“Los métodos de aprendizaje automático que aprenden de la simulación física representan una nueva frontera emergente en la IA para la ciencia”, dice Bonnie Berger, profesora de matemáticas del MIT Simons, investigadora principal de CSAIL y autora principal del artículo. “MDGen es un marco de modelado versátil y multipropósito que conecta estos dos dominios, y estamos muy emocionados de compartir nuestros primeros modelos en esta dirección”.
“El muestreo de trayectorias de transición realistas entre estados moleculares es un gran desafío”, afirma el autor principal Tommi Jaakkola, profesor de ingeniería eléctrica y ciencias de la computación del MIT y del Instituto de Datos, Sistemas y Sociedad, e investigador principal del CSAIL. “Este trabajo preliminar muestra cómo podríamos comenzar a abordar estos desafíos al cambiar el modelado generativo a ejecuciones de simulación completas”.
Los investigadores de todo el campo de la bioinformática han elogiado este sistema por su capacidad para simular transformaciones moleculares. “MDGen modela simulaciones de dinámica molecular como una distribución conjunta de incrustaciones estructurales, capturando movimientos moleculares entre pasos de tiempo discretos”, afirma el profesor asociado de la Universidad Tecnológica de Chalmers, Simon Olsson, que no participó en la investigación. “Al aprovechar un objetivo de aprendizaje enmascarado, MDGen permite casos de uso innovadores como el muestreo de trayectorias de transición, estableciendo analogías con las trayectorias de pintura que conectan fases metaestables”.
El trabajo de los investigadores en MDGen fue apoyado, en parte, por el Instituto Nacional de Ciencias Médicas Generales, el Departamento de Energía de EE. UU., la Fundación Nacional de Ciencias, el Consorcio de Aprendizaje Automático para el Descubrimiento y Síntesis Farmacéutica, la Clínica Abdul Latif Jameel para el Aprendizaje Automático en Salud, la Agencia de Reducción de Amenazas de Defensa y la Agencia de Proyectos de Investigación Avanzada de Defensa. MIT News. A. S. Traducido al español