Inteligencia artificial en biomedicina
Nuestro cuerpo está formado por unos 75 mil millones de células. Pero, ¿qué función cumple cada célula y en qué medida se diferencian las células de una persona sana de las de una persona enferma? Para sacar conclusiones, es necesario analizar e interpretar enormes cantidades de datos. Para ello, se aplican métodos de aprendizaje automático. Investigadores de la Universidad Técnica de Múnich (TUM) y de Helmholtz Munich han probado el aprendizaje autodirigido como un método prometedor para analizar 20 millones de células o más.
En los últimos años, los investigadores han logrado avances considerables en la tecnología de células individuales. Esto permite estudiar los tejidos a partir de células individuales y determinar de forma sencilla las distintas funciones de los distintos tipos celulares. El análisis se puede utilizar, por ejemplo, para hacer comparaciones con células sanas y averiguar cómo el tabaquismo, el cáncer de pulmón o la infección por COVID-19 modifican las estructuras celulares individuales del pulmón.
Al mismo tiempo, el análisis genera cantidades cada vez mayores de datos. Los investigadores pretenden aplicar métodos de aprendizaje automático para respaldar el proceso de reinterpretación de los conjuntos de datos existentes, derivar afirmaciones concluyentes a partir de los patrones y aplicar los resultados a otras áreas.
El aprendizaje autosupervisado como un nuevo enfoque
Fabian Theis es catedrático de Modelado matemático de sistemas biológicos en la TUM. Junto con su equipo, ha investigado si el aprendizaje autosupervisado es más adecuado para el análisis de grandes cantidades de datos que otros métodos. El estudio se publicó recientemente en Nature Machine Intelligence. Esta forma de aprendizaje automático funciona con datos no etiquetados. No se requieren datos de muestra clasificados de antemano, lo que significa que no es necesario asignar los datos a determinados grupos de antemano. Los datos no etiquetados están disponibles en grandes cantidades y permiten la representación robusta de enormes volúmenes de datos.

El aprendizaje autosupervisado se basa en dos métodos. En el aprendizaje enmascarado, como sugiere el nombre, se enmascara una parte de los datos de entrada y se entrena al modelo para que pueda reconstruir los elementos faltantes. Además, los investigadores aplican el aprendizaje contrastivo, en el que el modelo aprende a combinar datos similares y a separar datos diferentes.
El equipo utilizó ambos métodos de aprendizaje autosupervisado para probar más de 20 millones de células individuales y los comparó con los resultados de los métodos de aprendizaje clásicos. En su evaluación de los diferentes métodos, los investigadores se centraron en tareas como la predicción de los tipos de células y la reconstrucción de la expresión genética.
Perspectivas para el desarrollo de células virtuales
Los resultados del estudio muestran que el aprendizaje autosupervisado mejora el rendimiento, especialmente en tareas de transferencia, es decir, cuando se analizan conjuntos de datos más pequeños basados en información de un conjunto de datos auxiliares más grande. Además, los resultados de las predicciones de celdas de disparo cero, es decir, tareas realizadas sin entrenamiento previo, también son prometedores. La comparación entre el aprendizaje enmascarado y el contrastivo muestra que el aprendizaje enmascarado es más adecuado para aplicaciones con grandes conjuntos de datos de una sola celda.
Los investigadores están utilizando los datos para trabajar en el desarrollo de células virtuales. Se trata de modelos informáticos completos que reflejan la diversidad de células en diferentes conjuntos de datos. Estos modelos son prometedores para el análisis de cambios celulares como, por ejemplo, los que se observan en las enfermedades. Los resultados del estudio ofrecen información valiosa sobre cómo se podrían entrenar estos modelos de forma más eficiente y optimizarlos aún más. TUM News. Traducido al español