El Portal de las Tecnologías para la Innovación

Un nuevo modelo de IA para el diseño de fármacos incorpora más física en las predicciones

Fuente:

Cuando se utiliza el aprendizaje automático para sugerir nuevos conocimientos o direcciones científicas potenciales, los algoritmos a veces ofrecen soluciones que no son físicamente sólidas. Tomemos como ejemplo AlphaFold, el sistema de IA que predice las complejas formas en que las cadenas de aminoácidos se plegarán en estructuras proteicas tridimensionales.

El sistema a veces sugiere pliegues «no físicos» (configuraciones que son improbables según las leyes de la física), especialmente cuando se le pide que prediga los pliegues de cadenas que son significativamente diferentes de sus datos de entrenamiento. Para limitar este tipo de resultado no físico en el ámbito del diseño de fármacos, Anima Anandkumar , profesora Bren de Ciencias de la Computación y las Matemáticas en Caltech, y sus colegas han introducido un nuevo modelo de aprendizaje automático llamado NucleusDiff, que incorpora una idea física simple en su entrenamiento, mejorando considerablemente el rendimiento del algoritmo.

Anandkumar y sus colegas describen NucleusDiff en un artículo que aparece como parte de un artículo especial «Aprendizaje automático en química» publicado por las Actas de la Academia Nacional de Ciencias (PNAS).

El objetivo del diseño de fármacos basado en la estructura es crear moléculas pequeñas, llamadas ligandos, que se unan eficazmente a una diana biológica, generalmente una proteína, provocando algún tipo de cambio deseado en su actividad. Los modelos de IA para el diseño de fármacos se entrenan con conjuntos de datos que contienen decenas de miles de ejemplos de estos emparejamientos proteína-ligando, así como información sobre su eficacia en la unión, una medida importante denominada afinidad de unión. Pero, lo que es más importante, NucleusDiff va un paso más allá.

«Con el aprendizaje automático, el modelo ya está aprendiendo muchos de los aspectos que contribuyen a una buena unión, y ahora incorporamos algunos conceptos físicos básicos para asegurarnos de descartar todos los factores no físicos», explica Anandkumar. En el caso de NucleusDiff, el modelo garantiza que los átomos se mantengan a una distancia adecuada entre sí, considerando conceptos físicos como las fuerzas de repulsión que impiden que los átomos se superpongan o colisionen.

«Contamos con una buena teoría física que respalda el algoritmo, pero también es intuitivo», afirma Anandkumar. «Sorprendentemente, sin estas restricciones, todos estos modelos de IA tienden a predecir que hay una colisión, que los átomos se acercan demasiado. Al añadir física simple, aumentamos la precisión del modelo».

En lugar de calcular la distancia entre cada par de átomos en una molécula (una tarea que tendría un coste computacional prohibitivo), NucleusDiff estima una variedad o envolvente: una estimación aproximada de la distribución de los átomos y la probable ubicación de los electrones en la molécula. Sobre esa variedad, establece los puntos de anclaje principales que se deben observar, asegurándose de que los átomos nunca se acerquen demasiado entre sí.

El equipo entrenó NucleusDiff con un conjunto de datos de entrenamiento llamado CrossDocked2020, que incluye aproximadamente 100.000 complejos de unión proteína-ligando. Lo probaron con 100 de estos complejos y descubrieron que superó significativamente a los modelos más modernos en cuanto a afinidad de unión, a la vez que redujo el número de colisiones atómicas a casi cero. A continuación, los investigadores utilizaron el nuevo modelo para predecir las afinidades de unión de una molécula más reciente que no estaba incluida en el conjunto de datos de entrenamiento: la proteasa 3CL, diana terapéutica para la COVID-19. Nuevamente, NucleusDiff mostró una mayor precisión y una reducción de las colisiones atómicas de hasta dos tercios en comparación con otros modelos líderes.

El trabajo se enmarca en un impulso más amplio en el campus por parte de Anandkumar y otros, a través de una iniciativa llamada AI4Science , para integrar más física en modelos de IA basados ​​en datos creados para una variedad de temas, desde la predicción del clima hasta la robótica y desde la sismología hasta el modelado astrofísico.

«Si nos basamos exclusivamente en los datos de entrenamiento, no esperamos que el aprendizaje automático funcione bien con ejemplos significativamente diferentes a los datos de entrenamiento», afirma Anandkumar. De hecho, afirma que un principio estándar del aprendizaje automático es que los resultados suelen estar dentro del ámbito de los ejemplos proporcionados en los datos de entrenamiento. Sin embargo, en muchos ámbitos científicos, como el diseño de fármacos, los investigadores buscan resultados novedosos (por ejemplo, nuevas moléculas).

«Vemos que muchos sistemas de aprendizaje automático no logran obtener resultados precisos con ejemplos nuevos que difieren de los datos de entrenamiento, pero al incorporar la física, podemos hacer que el aprendizaje automático sea más confiable y funcione mucho mejor», afirma Anandkumar.

El artículo se titula «Modelo de difusión de denoising a nivel de núcleo con restricciones de colector para el diseño de fármacos basado en la estructura». Otros autores son Liang Yan, de la Universidad de Fudan, quien realizó el trabajo como becario de investigación y estudiante visitante en Caltech; Shengchao Liu, Christian Borgs y Jennifer Chayes, de la Universidad de California en Berkeley; Weitao Du, de la Academia Alibaba DAMO en Bellevue, Washington; Weiyang Liu, del Instituto Max Planck de Sistemas Inteligentes en Alemania; Zhuoxinran Li, de la Universidad de Toronto; y Hongyu Guo, del Consejo Nacional de Investigación de Canadá. El trabajo contó con el apoyo de la cátedra Bren y del programa de becas sénior AI2050 de Schmidt Sciences.

una estructura molecular con una envoltura de malla de forma irregular que sigue aproximadamente el contorno de la moléculaEsta ilustración muestra la malla de puntos de anclaje que el equipo obtuvo discretizando la variedad, una estimación de la distribución de los átomos y las posibles ubicaciones de los electrones en la molécula. Esto es importante porque, como señalan los autores en el nuevo artículo, tratar los átomos como puntos sólidos «no refleja plenamente la extensión espacial que ocupan los átomos reales en el espacio tridimensional».Crédito: Liu et al./PNAS

Un ligando multicolor que se une a una proteína se muestra como un diagrama de cinta.Visualización de un ligando generado por NucleusDiff para una proteína diana específica. Este ligando reduce considerablemente las colisiones atómicas y aumenta la afinidad de unión. (Desplácese a la siguiente imagen para ver un ligando generado por otro modelo de aprendizaje automático).Crédito: Liu et al./PNAS

Un ligando multicolor que se une a una proteína se muestra como un diagrama de cinta.
una molécula que choca con parte de una estructura proteica en forma de cinta

Caltech News. Traducido al español

Artículos relacionados

Microsoft 365 Copilot
Microsoft

El futuro del trabajo estará marcado por las empresas fronterizas: organizaciones dirigidas por personas y operadas por agentes.

Continuar leyendo...
Scroll al inicio