Las predicciones de solubilidad podrían facilitar el diseño y la síntesis de nuevos fármacos, minimizando al mismo tiempo el uso de disolventes más peligrosos.
Mediante aprendizaje automático, ingenieros químicos del MIT han creado un modelo computacional que puede predecir la disolución de una molécula en un disolvente orgánico, un paso clave en la síntesis de prácticamente cualquier fármaco. Este tipo de predicción podría facilitar considerablemente el desarrollo de nuevas formas de producir fármacos y otras moléculas útiles.
El nuevo modelo, que predice la cantidad de soluto que se disolverá en un disolvente específico, debería ayudar a los químicos a elegir el disolvente adecuado para cualquier reacción de síntesis, según los investigadores. Entre los disolventes orgánicos comunes se encuentran el etanol y la acetona, y existen cientos de otros que también pueden utilizarse en reacciones químicas.
“Predecir la solubilidad es realmente un paso limitante en la planificación sintética y la fabricación de productos químicos, especialmente medicamentos, por lo que desde hace mucho tiempo existe un interés en poder hacer mejores predicciones de la solubilidad”, dice Lucas Attia, estudiante de posgrado del MIT y uno de los autores principales del nuevo estudio.
Los investigadores han puesto su modelo a disposición del público de forma gratuita, y muchas empresas y laboratorios ya han comenzado a utilizarlo. Según los investigadores, el modelo podría ser especialmente útil para identificar disolventes menos peligrosos que algunos de los disolventes industriales más utilizados.
“Existen disolventes que se sabe que disuelven la mayoría de las cosas. Son muy útiles, pero son perjudiciales para el medio ambiente y para las personas, por lo que muchas empresas exigen minimizar la cantidad de estos disolventes”, afirma Jackson Burns, estudiante de posgrado del MIT y autor principal del artículo. “Nuestro modelo es extremadamente útil para identificar el siguiente mejor disolvente, que esperamos sea mucho menos perjudicial para el medio ambiente”.
William Green, profesor de Ingeniería Química Hoyt Hottel y director de la Iniciativa Energética del MIT, es el autor principal del estudio , publicado hoy en Nature Communications . Patrick Doyle, profesor de Ingeniería Química Robert T. Haslam, también es autor del artículo.
Solución de solubilidad
El nuevo modelo surgió de un proyecto en el que Attia y Burns colaboraron en un curso del MIT sobre la aplicación del aprendizaje automático a problemas de ingeniería química. Tradicionalmente, los químicos han predicho la solubilidad con una herramienta conocida como el Modelo de Solvatación de Abraham, que permite estimar la solubilidad total de una molécula sumando las contribuciones de las estructuras químicas dentro de ella. Si bien estas predicciones son útiles, su precisión es limitada.
En los últimos años, los investigadores han comenzado a utilizar el aprendizaje automático para intentar realizar predicciones de solubilidad más precisas. Antes de que Burns y Attia comenzaran a trabajar en su nuevo modelo, el modelo de vanguardia para predecir la solubilidad era un modelo desarrollado en el laboratorio de Green en 2022.
Ese modelo, conocido como SolProp, funciona prediciendo un conjunto de propiedades relacionadas y combinándolas, mediante la termodinámica, para predecir finalmente la solubilidad. Sin embargo, el modelo tiene dificultades para predecir la solubilidad de solutos que no ha observado previamente.
“En las líneas de descubrimiento de fármacos y productos químicos en las que se desarrolla una nueva molécula, es necesario poder predecir con antelación cuál será su solubilidad”, afirma Attia.
Parte del motivo por el que los modelos de solubilidad existentes no han funcionado bien se debe a la falta de un conjunto de datos completo para entrenarlos. Sin embargo, en 2023 se publicó un nuevo conjunto de datos llamado BigSolDB, que recopiló datos de casi 800 artículos publicados, incluyendo información sobre la solubilidad de unas 800 moléculas disueltas en más de 100 disolventes orgánicos de uso común en química sintética.
Attia y Burns decidieron entrenar dos tipos diferentes de modelos con estos datos. Ambos modelos representan las estructuras químicas de las moléculas mediante representaciones numéricas conocidas como incrustaciones, que incorporan información como el número de átomos en una molécula y qué átomos están unidos a qué otros átomos. Los modelos pueden usar estas representaciones para predecir diversas propiedades químicas.
Uno de los modelos utilizados en este estudio, conocido como FastProp y desarrollado por Burns y otros en el laboratorio de Green, incorpora «incrustaciones estáticas». Esto significa que el modelo ya conoce la incrustación de cada molécula antes de comenzar cualquier análisis.
El otro modelo, ChemProp, aprende una incrustación para cada molécula durante el entrenamiento, a la vez que aprende a asociar las características de la incrustación con un rasgo como la solubilidad. Este modelo, desarrollado en varios laboratorios del MIT, ya se ha utilizado en tareas como el descubrimiento de antibióticos, el diseño de nanopartículas lipídicas y la predicción de la velocidad de las reacciones químicas.
Los investigadores entrenaron ambos tipos de modelos con más de 40.000 puntos de datos de BigSolDB, incluyendo información sobre los efectos de la temperatura, la cual desempeña un papel importante en la solubilidad. Posteriormente, probaron los modelos con aproximadamente 1.000 solutos que se habían omitido de los datos de entrenamiento. Descubrieron que las predicciones de los modelos eran entre dos y tres veces más precisas que las de SolProp, el mejor modelo anterior, y que los nuevos modelos eran especialmente precisos al predecir las variaciones de solubilidad debidas a la temperatura.
“Poder reproducir con precisión esas pequeñas variaciones en la solubilidad debido a la temperatura, incluso cuando el ruido experimental general es muy grande, fue una señal realmente positiva de que la red había aprendido correctamente una función subyacente de predicción de la solubilidad”, afirma Burns.
Predicciones precisas
Los investigadores esperaban que el modelo basado en ChemProp, capaz de aprender nuevas representaciones a medida que avanza, pudiera realizar predicciones más precisas. Sin embargo, para su sorpresa, descubrieron que ambos modelos funcionaban prácticamente igual. Esto sugiere que la principal limitación de su rendimiento reside en la calidad de los datos, y que los modelos funcionan tan bien como teóricamente es posible con base en los datos que utilizan, afirman los investigadores.
“ChemProp siempre debería superar cualquier incrustación estática cuando se tienen suficientes datos”, afirma Burns. “Nos sorprendió ver que las incrustaciones estáticas y aprendidas presentaban un rendimiento estadísticamente indistinguible en todos los subconjuntos, lo que nos indica que las limitaciones de datos presentes en este ámbito influyeron en el rendimiento del modelo”.
Los modelos podrían volverse más precisos, dicen los investigadores, si hubiera mejores datos de entrenamiento y prueba disponibles: idealmente, datos obtenidos por una persona o un grupo de personas capacitadas para realizar los experimentos de la misma manera.
Una de las principales limitaciones del uso de este tipo de conjuntos de datos compilados es que cada laboratorio utiliza distintos métodos y condiciones experimentales al realizar pruebas de solubilidad. Esto contribuye a la variabilidad entre los distintos conjuntos de datos, afirma Attia.
Dado que el modelo basado en FastProp realiza predicciones más rápidas y su código facilita la adaptación de otros usuarios, los investigadores decidieron ponerlo a disposición del público, conocido como FastSolv. Varias compañías farmacéuticas ya han comenzado a utilizarlo.
“Existen aplicaciones en todo el proceso de descubrimiento de fármacos”, afirma Burns. “También nos entusiasma ver, más allá de la formulación y el descubrimiento de fármacos, dónde se puede utilizar este modelo”.
La investigación fue financiada, en parte, por el Departamento de Energía de EE. UU.
MIT News. A. T. Traducido al español