Un nuevo método permite a los usuarios pedir, en lenguaje sencillo, una nueva molécula con ciertas propiedades, y recibir una descripción detallada de cómo sintetizarla.
El proceso de descubrimiento de moléculas que tienen las propiedades necesarias para crear nuevos medicamentos y materiales es engorroso y costoso, consumiendo vastos recursos computacionales y meses de trabajo humano para reducir el enorme espacio de candidatos potenciales.
Los modelos de lenguaje grande (LLM) como ChatGPT podrían agilizar este proceso, pero permitir que un LLM comprenda y razone sobre los átomos y enlaces que forman una molécula, de la misma manera que lo hace con las palabras que forman oraciones, ha presentado un obstáculo científico.
Investigadores del MIT y el MIT-IBM Watson AI Lab crearon un enfoque prometedor que aumenta un LLM con otros modelos de aprendizaje automático conocidos como modelos basados en gráficos, que están diseñados específicamente para generar y predecir estructuras moleculares.
Su método emplea un LLM base para interpretar consultas de lenguaje natural que especifican las propiedades moleculares deseadas. Cambia automáticamente entre el LLM base y los módulos de IA basados en gráficos para diseñar la molécula, explicar la justificación y generar un plan paso a paso para sintetizarla. Intercala la generación de pasos de texto, gráfico y síntesis, combinando palabras, gráficos y reacciones en un vocabulario común para que el LLM lo consuma.
En comparación con los enfoques existentes basados en LLM, esta técnica multimodal generó moléculas que coincidían mejor con las especificaciones del usuario y tenían más probabilidades de tener un plan de síntesis válido, mejorando la relación de éxito del 5 al 35 por ciento.
También superó a los LLM que tienen más de 10 veces su tamaño y que diseñan moléculas y rutas de síntesis solo con representaciones basadas en texto, lo que sugiere que la multimodalidad es clave para el éxito de las nuevas systemas.
“Con suerte, esta podría ser una solución de extremo a extremo en la que, de principio a fin, automatizaríamos todo el proceso de diseño y fabricación de una molécula. Si un LLM pudiera darte la respuesta en unos segundos, sería un gran ahorro de tiempo para las compañías farmacéuticas,” dice Michael Sun, un estudiante graduado del MIT y coautor de un papel sobre esta técnica.
Los coautores de Suns incluyen al autor principal Gang Liu, un estudiante graduado en la Universidad de Notre Dame; Wojciech Matusik, profesor de ingeniería eléctrica y ciencias de la computación en el MIT que dirige el Grupo de Diseño y Fabricación Computacional dentro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); Meng Jiang, profesor asociado en la Universidad de Notre Dame; y el autor principal Jie Chen un científico investigador senior y gerente en el MIT-IBM Watson AI Lab. La investigación se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje.
Lo mejor de ambos mundos
Los modelos de lenguaje grande están diseñados para comprender los matices de la química, que es una de las razones por las que luchan con el diseño molecular inverso, un proceso de identificación de estructuras moleculares que tienen ciertas funciones o propiedades.
Los LLM convierten el texto en representaciones llamadas tokens, que utilizan para predecir secuencialmente la siguiente palabra en una oración. Pero las moléculas son “estructuras gráficas,” compuestas de átomos y enlaces sin un orden particular, lo que las hace difíciles de codificar como texto secuencial.
Por otro lado, los potentes modelos de IA basados en gráficos representan átomos y enlaces moleculares como nodos y bordes interconectados en un gráfico. Si bien estos modelos son populares para el diseño molecular inverso, requieren entradas complejas, pueden comprender el lenguaje natural y producir resultados que pueden ser difíciles de interpretar.
Los investigadores del MIT combinaron un LLM con modelos de IA basados en gráficos en un marco unificado que obtiene lo mejor de ambos mundos.
Llamole, que significa modelo de lenguaje grande para el descubrimiento molecular, utiliza un LLM base como guardián para comprender una consulta de los usuarios — una solicitud en lenguaje sencillo para una molécula con ciertas propiedades.
Por ejemplo, tal vez un usuario busca una molécula que pueda penetrar la barrera hematoencefálica e inhibir el VIH, dado que tiene un peso molecular de 209 y ciertas características de enlace.
A medida que el LLM predice el texto en respuesta a la consulta, cambia entre módulos de gráficos.
Un módulo utiliza un modelo de difusión de gráficos para generar la estructura molecular condicionada a los requisitos de entrada. Un segundo módulo utiliza una red neuronal gráfica para codificar la estructura molecular generada de nuevo en tokens para que los LLM consuman. El módulo gráfico final es un predictor de reacción gráfica que toma como entrada una estructura molecular intermedia y predice un paso de reacción, buscando el conjunto exacto de pasos para hacer la molécula a partir de bloques de construcción básicos.
Los investigadores crearon un nuevo tipo de token de activación que le dice al LLM cuándo activar cada módulo. Cuando el LLM predice un token de disparo “design”, cambia al módulo que esboza una estructura molecular, y cuando predice un token de disparo “retro”, cambia al módulo de planificación retrospectiva que predice el siguiente paso de reacción.
“La belleza de esto es que todo lo que el LLM genera antes de activar un módulo en particular se alimenta en ese módulo. El módulo está aprendiendo a operar de una manera que sea consistente con lo que vino antes, dice” Sun.
De la misma manera, la salida de cada módulo se codifica y retroalimenta en el proceso de generación del LLM, por lo que entiende lo que hizo cada módulo y continuará prediciendo tokens basados en esos datos.
Estructuras moleculares mejores y más simples
Al final, Llamole produce una imagen de la estructura molecular, una descripción textual de la molécula y un plan de síntesis paso a paso que proporciona los detalles de cómo hacerlo, hasta las reacciones químicas individuales.
En experimentos que involucraron el diseño de moléculas que coincidían con las especificaciones del usuario, Llamole superó los 10 LLM estándar, cuatro LLM afinados y un método específico de dominio de última generación. Al mismo tiempo, aumentó la tasa de éxito de la planificación retrospectiva del 5 al 35 por ciento al generar moléculas de mayor calidad, lo que significa que tenían estructuras más simples y bloques de construcción de menor costo.
“Por sí solos, los LLM luchan por descubrir cómo sintetizar moléculas porque requiere mucha planificación de varios pasos. Nuestro método puede generar mejores estructuras moleculares que también son más fáciles de sintetizar, dice Liu.
Para entrenar y evaluar Llamole, los investigadores construyeron dos conjuntos de datos desde cero ya que los conjuntos de datos existentes de estructuras moleculares no contenían suficientes detalles. Aumentaron cientos de miles de moléculas patentadas con descripciones de lenguaje natural generadas por IA y plantillas de descripción personalizadas.
El conjunto de datos que construyeron para afinar el LLM incluye plantillas relacionadas con 10 propiedades moleculares, por lo que una limitación de Llamole es que está entrenado para diseñar moléculas considerando solo esas 10 propiedades numéricas.
En trabajos futuros, los investigadores quieren generalizar Llamole para que pueda incorporar cualquier propiedad molecular. Además, planean mejorar los módulos de gráficos para aumentar la tasa de éxito de la retrospectiva de Llamoleoks.
Y a la larga, esperan utilizar este enfoque para ir más allá de las moléculas, creando LLM multimodales que puedan manejar otros tipos de datos basados en gráficos, como sensores interconectados en una red eléctrica o transacciones en un mercado financiero.
“Llamole demuestra la viabilidad de utilizar modelos de lenguaje grande como una interfaz para datos complejos más allá de la descripción textual, y anticipamos que son una base que interactúa con otros algoritmos de IA para resolver cualquier problema de gráficos, dice Chen.
Esta investigación está financiada, en parte, por el MIT-IBM Watson AI Lab, la Fundación Nacional de Ciencia y la Oficina de Investigación Naval.
MIT News, Z. A. Traducido al español