Un nuevo enfoque puede revelar las características que utilizan los modelos de IA para predecir proteínas que podrían ser buenos objetivos para medicamentos o vacunas.
En los últimos años, los modelos que pueden predecir la estructura o función de las proteínas se han utilizado ampliamente para una variedad de aplicaciones biológicas, como la identificación de objetivos farmacológicos y el diseño de nuevos anticuerpos terapéuticos.
Estos modelos, basados en grandes modelos de lenguaje (LLM), pueden realizar predicciones muy precisas sobre la idoneidad de una proteína para una aplicación determinada. Sin embargo, no es posible determinar cómo estos modelos realizan sus predicciones ni qué características proteicas desempeñan el papel más importante en dichas decisiones.
En un nuevo estudio, investigadores del MIT han utilizado una técnica novedosa para abrir esa «caja negra» y determinar qué características considera un modelo de lenguaje proteico al realizar predicciones. Comprender lo que ocurre dentro de esa caja negra podría ayudar a los investigadores a elegir mejores modelos para una tarea específica, lo que agilizaría el proceso de identificación de nuevos fármacos o dianas para vacunas.
“Nuestro trabajo tiene amplias implicaciones para una mejor explicabilidad en tareas posteriores que dependen de estas representaciones”, afirma Bonnie Berger, profesora de Matemáticas de la Cátedra Simons, jefa del grupo de Computación y Biología del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y autora principal del estudio. “Además, identificar las características que rastrean los modelos de lenguaje de proteínas tiene el potencial de revelar nuevos conocimientos biológicos a partir de estas representaciones”.
Onkar Gujral, estudiante de posgrado del MIT, es el autor principal del estudio de acceso abierto , que se publica esta semana en las Actas de la Academia Nacional de Ciencias. Mihir Bafna, estudiante de posgrado del MIT en ingeniería eléctrica e informática, y Eric Alm, profesor de ingeniería biológica del MIT, también son autores del artículo.
Abriendo la caja negra
En 2018, Berger y el exestudiante de posgrado del MIT, Tristan Bepler, doctorado ’20, presentaron el primer modelo de lenguaje proteico. Su modelo, al igual que los modelos proteicos posteriores que aceleraron el desarrollo de AlphaFold, como ESM2 y OmegaFold, se basaba en LLM. Estos modelos, que incluyen ChatGPT, pueden analizar grandes cantidades de texto y determinar qué palabras tienen mayor probabilidad de aparecer juntas.
Los modelos de lenguaje proteico utilizan un enfoque similar, pero en lugar de analizar palabras, analizan secuencias de aminoácidos. Los investigadores han utilizado estos modelos para predecir la estructura y la función de las proteínas, y para aplicaciones como la identificación de proteínas que podrían unirse a fármacos específicos.
En un estudio de 2021 , Berger y sus colegas utilizaron un modelo de lenguaje proteico para predecir qué secciones de las proteínas de superficie viral tienen menos probabilidades de mutar de forma que permitan el escape viral. Esto les permitió identificar posibles dianas para las vacunas contra la gripe, el VIH y el SARS-CoV-2.
Sin embargo, en todos estos estudios ha sido imposible saber cómo los modelos estaban haciendo sus predicciones.
“Al final hicimos alguna predicción, pero no teníamos ni la menor idea de qué estaba sucediendo en los componentes individuales de esta caja negra”, afirma Berger.
En el nuevo estudio, los investigadores querían profundizar en cómo los modelos de lenguaje proteico realizan sus predicciones. Al igual que los LLM, los modelos de lenguaje proteico codifican la información como representaciones que consisten en un patrón de activación de diferentes «nodos» dentro de una red neuronal. Estos nodos son análogos a las redes de neuronas que almacenan recuerdos y otra información en el cerebro.
El funcionamiento interno de los LLM no es fácil de interpretar, pero en los últimos dos años, los investigadores han comenzado a utilizar un tipo de algoritmo conocido como autocodificador disperso para comprender mejor cómo estos modelos realizan sus predicciones. El nuevo estudio del laboratorio de Berger es el primero en utilizar este algoritmo en modelos de lenguaje proteico.
Los autocodificadores dispersos funcionan ajustando la representación de una proteína dentro de una red neuronal. Normalmente, una proteína dada se representará mediante un patrón de activación de un número limitado de neuronas, por ejemplo, 480. Un autocodificador disperso expandirá esa representación a un número mucho mayor de nodos, por ejemplo, 20 000.
Cuando la información de una proteína está codificada por solo 480 neuronas, cada nodo se activa para múltiples características, lo que dificulta saber qué características codifica cada nodo. Sin embargo, cuando la red neuronal se expande a 20 000 nodos, este espacio adicional, junto con una restricción de dispersión, permite que la información se disperse. Ahora, una característica de la proteína que antes estaba codificada por múltiples nodos puede ocupar un solo nodo.
“En una representación dispersa, las neuronas que se activan lo hacen de forma más significativa”, afirma Gujral. “Antes de crear las representaciones dispersas, las redes concentran la información de forma tan densa que dificulta su interpretación”.
Modelos interpretables
Una vez obtenidas las representaciones dispersas de muchas proteínas, los investigadores utilizaron un asistente de IA llamado Claude (relacionado con el popular chatbot antrópico del mismo nombre) para analizarlas. En este caso, le pidieron a Claude que comparara las representaciones dispersas con las características conocidas de cada proteína, como su función molecular, familia proteica o ubicación celular.
Al analizar miles de representaciones, Claude puede determinar qué nodos corresponden a características proteicas específicas y luego describirlas en un lenguaje sencillo. Por ejemplo, el algoritmo podría decir: «Esta neurona parece estar detectando proteínas implicadas en el transporte transmembrana de iones o aminoácidos, en particular las ubicadas en la membrana plasmática».
Este proceso hace que los nodos sean mucho más interpretables, lo que significa que los investigadores pueden identificar la codificación de cada uno. Descubrieron que las características con mayor probabilidad de ser codificadas por estos nodos eran la familia de proteínas y ciertas funciones, incluyendo diversos procesos metabólicos y biosintéticos.
«Cuando entrenas un autocodificador disperso, no lo estás entrenando para que sea interpretable, pero resulta que al incentivar que la representación sea realmente dispersa, eso termina generando interpretabilidad», dice Gujral.
Comprender las características que codifica un modelo proteico en particular podría ayudar a los investigadores a elegir el modelo adecuado para una tarea específica o a ajustar el tipo de información que le proporcionan para obtener los mejores resultados. Además, analizar las características que codifica un modelo podría, en el futuro, ayudar a los biólogos a comprender mejor las proteínas que estudian.
“En algún momento, cuando los modelos se vuelvan mucho más poderosos, se podrá aprender más biología de la que ya se sabe al abrirlos”, dice Gujral.
La investigación fue financiada por los Institutos Nacionales de Salud.
MIT News. A. T. Traducido al español