El Portal de las Tecnologías para la Innovación

Con IA, los investigadores predicen la ubicación de prácticamente cualquier proteína dentro de una célula humana

Entrenado con una comprensión conjunta del comportamiento de las proteínas y las células, el modelo podría ayudar a diagnosticar enfermedades y desarrollar nuevos medicamentos.

Una proteína ubicada en la parte incorrecta de una célula puede contribuir a diversas enfermedades, como el Alzheimer, la fibrosis quística y el cáncer. Sin embargo, existen alrededor de 70.000 proteínas y variantes proteicas diferentes en una sola célula humana, y dado que los científicos normalmente solo pueden analizar unas pocas en un solo experimento, identificar manualmente la ubicación de las proteínas resulta extremadamente costoso y lento.

Una nueva generación de técnicas computacionales busca optimizar el proceso mediante modelos de aprendizaje automático que a menudo aprovechan conjuntos de datos que contienen miles de proteínas y sus ubicaciones, medidas en múltiples líneas celulares. Uno de los conjuntos de datos más grandes es el Atlas de Proteínas Humanas, que cataloga el comportamiento subcelular de más de 13 000 proteínas en más de 40 líneas celulares . Sin embargo, a pesar de su enorme tamaño, el Atlas de Proteínas Humanas solo ha explorado alrededor del 0,25 % de todos los emparejamientos posibles de todas las proteínas y líneas celulares dentro de la base de datos.

Ahora, investigadores del MIT, la Universidad de Harvard y el Instituto Broad del MIT y Harvard han desarrollado un nuevo enfoque computacional que puede explorar eficientemente el espacio inexplorado restante. Su método puede predecir la ubicación de cualquier proteína en cualquier línea celular humana, incluso cuando ni la proteína ni la célula se han analizado antes.

Su técnica va un paso más allá que muchos métodos basados ​​en IA al localizar una proteína a nivel de célula individual, en lugar de como una estimación promediada de todas las células de un tipo específico. Esta localización unicelular podría determinar con precisión la ubicación de una proteína en una célula cancerosa específica después del tratamiento, por ejemplo.

Los investigadores combinaron un modelo de lenguaje proteico con un modelo especial de visión artificial para capturar detalles detallados sobre una proteína y una célula. Al final, el usuario recibe una imagen de una célula con una sección resaltada que indica la predicción del modelo sobre la ubicación de la proteína. Dado que la localización de una proteína indica su estado funcional, esta técnica podría ayudar a investigadores y médicos a diagnosticar enfermedades o identificar dianas farmacológicas con mayor eficiencia, a la vez que permite a los biólogos comprender mejor cómo se relacionan los procesos biológicos complejos con la localización de proteínas.

“Podrías realizar estos experimentos de localización de proteínas en una computadora sin necesidad de tocar ninguna mesa de laboratorio, con la esperanza de ahorrarte meses de esfuerzo. Si bien aún sería necesario verificar la predicción, esta técnica podría servir como una primera prueba para determinar qué se debe analizar experimentalmente”, afirma Yitong Tseo, estudiante de posgrado del programa de Biología Computacional y de Sistemas del MIT y coautor principal de un artículo sobre esta investigación.

Tseo colabora en el artículo con la coautora principal Xinyi Zhang, estudiante de posgrado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y el Centro Eric y Wendy Schmidt del Instituto Broad; Yunhao Bai, del Instituto Broad; y las autoras principales Fei Chen, profesora adjunta de Harvard y miembro del Instituto Broad, y Caroline Uhler, profesora de Ingeniería Andrew y Erna Viterbi en EECS y el Instituto de Datos, Sistemas y Sociedad (IDSS) del MIT, quien también es directora del Centro Eric y Wendy Schmidt e investigadora del Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT. La investigación se publica hoy en Nature Methods .

Modelos colaboradores

Muchos modelos de predicción de proteínas existentes sólo pueden realizar predicciones basadas en los datos de proteínas y células con los que fueron entrenados o no pueden determinar con precisión la ubicación de una proteína dentro de una sola célula.

Para superar estas limitaciones, los investigadores crearon un método de dos partes para predecir la ubicación subcelular de proteínas invisibles, llamado PUPS.

La primera parte utiliza un modelo de secuencia de proteínas para capturar las propiedades determinantes de la localización de una proteína y su estructura 3D basada en la cadena de aminoácidos que la forma.

La segunda parte incorpora un modelo de relleno de imagen, diseñado para rellenar las partes faltantes de una imagen. Este modelo de visión artificial analiza tres imágenes teñidas de una célula para recopilar información sobre su estado, como su tipo, características individuales y si se encuentra bajo estrés.

PUPS une las representaciones creadas por cada modelo para predecir dónde se encuentra la proteína dentro de una sola célula, utilizando un decodificador de imágenes para generar una imagen resaltada que muestra la ubicación prevista.

“Las diferentes células dentro de una línea celular exhiben características diferentes, y nuestro modelo es capaz de comprender ese matiz”, dice Tseo.

El usuario introduce la secuencia de aminoácidos que forma la proteína y tres imágenes de tinción celular: una para el núcleo, otra para los microtúbulos y otra para el retículo endoplasmático. PUPS se encarga del resto.

Una comprensión más profunda

Los investigadores emplearon algunos trucos durante el proceso de entrenamiento para enseñar a PUPS cómo combinar información de cada modelo de tal manera que puedan hacer una suposición fundamentada sobre la ubicación de la proteína, incluso si no han visto esa proteína antes.

Por ejemplo, asignan al modelo una tarea secundaria durante el entrenamiento: nombrar explícitamente el compartimento de localización, como el núcleo celular. Esto se realiza junto con la tarea principal de repintado para ayudar al modelo a aprender con mayor eficacia.

Una buena analogía podría ser la de un profesor que pide a sus alumnos que dibujen todas las partes de una flor, además de escribir sus nombres. Se descubrió que este paso adicional ayudaba al modelo a mejorar su comprensión general de los posibles compartimentos celulares.

Además, el hecho de que PUPS se entrene en proteínas y líneas celulares al mismo tiempo le ayuda a desarrollar una comprensión más profunda de en qué parte de una imagen celular tienden a localizarse las proteínas.

Los PUPS pueden incluso comprender, por sí solos, cómo las diferentes partes de la secuencia de una proteína contribuyen por separado a su localización general.

La mayoría de los demás métodos suelen requerir una tinción previa de la proteína, por lo que ya la habrás visto en tus datos de entrenamiento. Nuestro enfoque es único porque permite generalizarlo simultáneamente a proteínas y líneas celulares, afirma Zhang.

Debido a que los PUPS pueden generalizarse a proteínas invisibles, pueden capturar cambios en la localización impulsados ​​por mutaciones de proteínas únicas que no están incluidas en el Atlas de Proteínas Humanas.

Los investigadores verificaron que PUPS podía predecir la ubicación subcelular de nuevas proteínas en líneas celulares desconocidas mediante experimentos de laboratorio y la comparación de los resultados. Además, en comparación con un método de IA de referencia, PUPS mostró, en promedio, un menor error de predicción en las proteínas analizadas.

En el futuro, los investigadores buscan mejorar PUPS para que el modelo pueda comprender las interacciones proteína-proteína y realizar predicciones de localización para múltiples proteínas dentro de una célula. A largo plazo, buscan que PUPS pueda realizar predicciones en tejido humano vivo, en lugar de células cultivadas.

Esta investigación está financiada por el Centro Eric y Wendy Schmidt del Instituto Broad, los Institutos Nacionales de Salud, la Fundación Nacional de Ciencias, el Fondo de Bienvenida Burroughs, la Fundación Searle Scholars, el Instituto de Células Madre de Harvard, el Instituto Merkin, la Oficina de Investigación Naval y el Departamento de Energía. MIT News. A. Z. Traducido al español

Artículos relacionados

Scroll al inicio