El Portal de las Tecnologías para la Innovación

El modelo de IA descifra el código en proteínas que les dice a dónde ir

Los investigadores del Instituto Whitehead y CSAIL crearon un modelo de aprendizaje automático para predecir y generar la localización de proteínas, con implicaciones para comprender y remediar enfermedades.

Las proteínas son los caballos de batalla que mantienen nuestras células funcionando, y hay muchos miles de tipos de proteínas en nuestras células, cada una realizando una función especializada. Los investigadores saben desde hace tiempo que la estructura de una proteína determina lo que puede hacer. Más recientemente, los investigadores están llegando a apreciar que una localización de proteínas también es crítica para su función. Las células están llenas de compartimentos que ayudan a organizar a sus muchos habitantes. Junto con los conocidos orgánulos que adornan las páginas de los libros de texto de biología, estos espacios también incluyen una variedad de compartimentos dinámicos sin membrana que concentran ciertas moléculas para realizar funciones compartidas. Saber dónde se localiza una proteína determinada y con quién se co-localiza, puede ser útil para comprender mejor esa proteína y su papel en la célula sana o enfermapero los investigadores han carecido de una forma sistemática de predecir esta información.

Mientras tanto, la estructura de la proteína se ha estudiado durante más de medio siglo, culminando en la herramienta de inteligencia artificial AlphaFold, que puede predecir la estructura de la proteína a partir de un código de aminoácidos de proteínas, la cadena lineal de bloques de construcción dentro de ella que se pliega para crear su estructura. AlphaFold y modelos como este se han convertido en herramientas ampliamente utilizadas en la investigación.

Las proteínas también contienen regiones de aminoácidos que no se pliegan en una estructura fija, sino que son importantes para ayudar a las proteínas a unirse a compartimentos dinámicos en la célula. El profesor del MIT Richard Young y sus colegas se preguntaron si el código en esas regiones podría usarse para predecir la localización de proteínas de la misma manera que otras regiones se usan para predecir la estructura. Otros investigadores han descubierto algunas secuencias de proteínas que codifican la localización de proteínas, y algunos han comenzado a desarrollar modelos predictivos para la localización de proteínas. Sin embargo, los investigadores no sabían si una localización de proteínas en cualquier compartimento dinámico podría predecirse en función de su secuencia, ni tenían una herramienta comparable a AlphaFold para predecir la localización. 

Ahora, Young, también miembro del Instituto Whitehead para la Investigación Biológica; Henry Kilgore, postdoctorado de laboratorio joven; Regina Barzilay, Profesora Distinguida de la Escuela de Ingeniería para la IA y la Salud en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT e investigadora principal en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y sus colegas han construido un modelo de este tipo, que llaman ProtGPS. En un artículo publicado en 6 De febrero en el diario Cienciacon los primeros autores Kilgore y los estudiantes graduados de laboratorio de Barzilay Itamar Chinn, Peter Mikhael e Ilan Mitnikov, el equipo interdisciplinario estrena su modelo. Los investigadores muestran que ProtGPS puede predecir a cuál de los 12 tipos conocidos de compartimentos se localizará una proteína, así como si una mutación asociada a la enfermedad cambiará esa localización. Además, el equipo de investigación desarrolló un algoritmo generativo que puede diseñar nuevas proteínas para localizar compartimentos específicos.

“Mi esperanza es que este sea un primer paso hacia una plataforma poderosa que permita a las personas que estudian proteínas investigar,” Young dice, “y que nos ayude a comprender cómo los humanos se convierten en los organismos complejos que son, cómo las mutaciones interrumpen esos procesos naturales y cómo generar hipótesis terapéuticas y diseñar medicamentos para tratar la disfunción en una célula

Los investigadores también validaron muchas de las predicciones de modelos con pruebas experimentales en células.

“Realmente me emocionó poder pasar del diseño computacional hasta probar estas cosas en el laboratorio,” dice Barzilay. “Hay muchos documentos interesantes en esta área de la IA, pero el 99.9 por ciento de ellos nunca se prueban en sistemas reales. Gracias a nuestra colaboración con el laboratorio Young, pudimos probar y realmente aprender qué tan bien está nuestro algoritmo.”

Desarrollando el modelo

Los investigadores entrenaron y probaron ProtGPS en dos lotes de proteínas con localizaciones conocidas. Descubrieron que podía predecir correctamente dónde terminan las proteínas con alta precisión. Los investigadores también probaron qué tan bien podría predecir ProtGPS los cambios en la localización de proteínas en función de las mutaciones asociadas a la enfermedad dentro de una proteína. Se ha encontrado que muchas mutaciones — cambios en la secuencia de un gen y su proteína correspondiente — contribuyen o causan enfermedades según los estudios de asociación, pero las formas en que las mutaciones conducen a los síntomas de la enfermedad siguen siendo desconocidas.

Descubrir el mecanismo de cómo una mutación contribuye a la enfermedad es importante porque entonces los investigadores pueden desarrollar terapias para arreglar ese mecanismo, prevenir o tratar la enfermedad. Young y sus colegas sospecharon que muchas mutaciones asociadas a la enfermedad podrían contribuir a la enfermedad al cambiar la localización de proteínas. Por ejemplo, una mutación podría hacer que una proteína no pueda unirse a un compartimento que contenga socios esenciales.

Probaron esta hipótesis alimentando a ProtGOS con más de 200,000 proteínas con mutaciones asociadas a enfermedades, y luego pidiéndole que predijera dónde se localizarían esas proteínas mutadas y midiera cuánto cambió su predicción para una proteína dada de la versión normal a la mutada. Un gran cambio en la predicción indica un cambio probable en la localización.

Los investigadores encontraron muchos casos en los que una mutación asociada a la enfermedad parecía cambiar la localización de proteínas. Probaron 20 ejemplos en células, usando fluorescencia para comparar dónde en la célula terminó una proteína normal y la versión mutada de la misma. Los experimentos confirmaron las predicciones de ProtGPSs. En conjunto, los hallazgos respaldan la sospecha de los investigadores de que la localización errónea puede ser un mecanismo poco apreciado de la enfermedad, y demuestran el valor de ProtGPS como una herramienta para comprender la enfermedad e identificar nuevas vías terapéuticas.

“La célula es un sistema tan complicado, con tantos componentes y complejas redes de interacciones,” Mitnikov dice. “Es súper interesante pensar que con este enfoque, podemos perturbar el sistema, ver el resultado de eso, y así impulsar el descubrimiento de mecanismos en la célula, o incluso desarrollar terapias basadas en eso.”

Los investigadores esperan que otros comiencen a usar ProtGPS de la misma manera que usan modelos estructurales predictivos como AlphaFold, avanzando en varios proyectos sobre la función, disfunción y enfermedad de las proteínas.

Ir más allá de la predicción a la generación de novelas

Los investigadores estaban entusiasmados con los posibles usos de su modelo de predicción, pero también querían que su modelo fuera más allá de predecir localizaciones de proteínas existentes y les permitiera diseñar proteínas completamente nuevas. El objetivo era que el modelo formara secuencias de aminoácidos completamente nuevas que, cuando se formaban en una célula, se localizarían en la ubicación deseada. Generar una nueva proteína que realmente pueda cumplir una función — en este caso, la función de localizar a un compartimento celular específico — es increíblemente difícil. Con el fin de mejorar sus posibilidades de éxito de modelos, los investigadores limitaron su algoritmo a diseñar solo proteínas como las que se encuentran en la naturaleza. Este es un enfoque comúnmente utilizado en el diseño de fármacos, por razones lógicas; la naturaleza ha tenido miles de millones de años para averiguar qué secuencias de proteínas funcionan bien y cuáles no.

Debido a la colaboración con el laboratorio Young, el equipo de aprendizaje automático pudo probar si su generador de proteínas funcionaba. El modelo tuvo buenos resultados. En una ronda, generó 10 proteínas destinadas a localizarse en el nucleolo. Cuando los investigadores probaron estas proteínas en la célula, descubrieron que cuatro de ellas estaban fuertemente localizadas en el nucleolo, y otras también pueden haber tenido ligeros sesgos hacia esa ubicación.

“La colaboración entre nuestros laboratorios ha sido tan generativa para todos nosotros,” Mikhael dice. “Weizve aprendió a hablar entre sí en otros idiomas, en nuestro caso aprendió mucho sobre cómo funcionan las células, y al tener la oportunidad de probar experimentalmente nuestro modelo, weiz ha podido descubrir qué debemos hacer para que el modelo funcione y luego hacerlo funcionar mejor.”

Ser capaz de generar proteínas funcionales de esta manera podría mejorar la capacidad de los investigadores para desarrollar terapias. Por ejemplo, si un medicamento debe interactuar con un objetivo que se localiza dentro de un determinado compartimento, entonces los investigadores podrían usar este modelo para diseñar un medicamento para localizarlo también allí. Esto debería hacer que el medicamento sea más efectivo y disminuir los efectos secundarios, ya que el medicamento pasará más tiempo interactuando con su objetivo y menos tiempo interactuando con otras moléculas, causando efectos fuera del objetivo.

Los miembros del equipo de aprendizaje automático están entusiasmados con la posibilidad de utilizar lo que han aprendido de esta colaboración para diseñar nuevas proteínas con otras funciones más allá de la localización, lo que ampliaría las posibilidades de diseño terapéutico y otras aplicaciones.

“Muchos artículos muestran que pueden diseñar una proteína que se pueda expresar en una célula, pero no que la proteína tenga una función particular, dice” Chinn. “En realidad teníamos un diseño de proteína funcional y una tasa de éxito relativamente grande en comparación con otros modelos generativos. Eso es realmente emocionante para nosotros, y algo en lo que nos gustaría construir.”

Todos los investigadores involucrados ven a ProtGPS como un comienzo emocionante. Anticipan que su herramienta se utilizará para aprender más sobre los roles de la localización en la función de las proteínas y la localización errónea en la enfermedad. Además, están interesados en ampliar las predicciones de localización de modelos para incluir más tipos de compartimentos, probar más hipótesis terapéuticas y diseñar proteínas cada vez más funcionales para terapias u otras aplicaciones.

“Ahora que sabemos que existe este código de proteína para la localización, y que los modelos de aprendizaje automático pueden dar sentido a ese código e incluso crear proteínas funcionales utilizando su lógica, eso abre la puerta a tantos estudios y aplicaciones potenciales, dice Kilgore. MIT News. G. F. Traducido al español

Artículos relacionados

Scroll al inicio