Un nuevo estudio y modelo de inteligencia artificial de investigadores de la Universidad de Stanford está agilizando el diagnóstico del cáncer, la planificación del tratamiento y la predicción del pronóstico.
La investigación, denominada MUSK (Transformador multimodal con modelado enmascarado unificado), tiene como objetivo avanzar en la oncología de precisión, adaptando los planes de tratamiento a cada paciente en función de sus datos médicos únicos.
“Los modelos de base multimodales son una nueva frontera en la investigación de la IA médica”, afirmó Ruijiang LI , profesor asociado de oncología radioterápica y autor principal del estudio. “Recientemente, se han desarrollado modelos de base de visión y lenguaje para la medicina, en particular en el campo de la patología. Sin embargo, los estudios existentes utilizan modelos de base listos para usar que requieren datos de imágenes y texto emparejados para el preentrenamiento. A pesar de los amplios esfuerzos que llevaron a la curación de 1 millón de pares de imágenes y texto de patología, aún es insuficiente para capturar por completo la diversidad de todo el espectro de enfermedades”.
Los oncólogos dependen de muchas fuentes de datos cuando analizan la condición de un paciente y planifican tratamientos óptimos. Sin embargo, la integración e interpretación de datos médicos complejos sigue siendo difícil para los médicos y los modelos de IA. El estudio , publicado recientemente en Nature , destaca cómo MUSK podría ayudar a los médicos a tomar decisiones más precisas e informadas y, al mismo tiempo, resolver este desafío de larga data en la IA médica.
Mediante el aprendizaje profundo, MUSK procesa datos de texto clínicos (como notas del médico) e imágenes de patología (como diapositivas de histología) para identificar patrones que pueden no ser inmediatamente obvios para los médicos, lo que conduce a mejores conocimientos clínicos.
Para ello, utiliza un modelo de transformación multimodal de dos pasos. En primer lugar, aprende de grandes cantidades de datos no emparejados, extrayendo características del texto y las imágenes que son útiles. Luego, afina su comprensión de los datos vinculando datos emparejados de imágenes y texto, lo que le ayuda a reconocer diferentes tipos de cáncer, predecir biomarcadores y sugerir opciones de tratamiento eficaces.
Los investigadores entrenaron previamente el modelo de IA en uno de los conjuntos de datos más grandes en el campo, utilizando 50 millones de imágenes de patología de 11 577 pacientes con 33 tipos de tumores y 1000 millones de datos de texto relacionados con la patología.
Según Jinxi Xiang , autor principal del estudio y becario postdoctoral en física de la radiación, el preentrenamiento se llevó a cabo durante 10 días utilizando 64 GPU NVIDIA V100 Tensor Core en ocho nodos, lo que permitió a MUSK procesar grandes cantidades de imágenes patológicas y texto clínico de manera eficiente. Una fase secundaria de preentrenamiento y estudios de ablación utilizaron GPU NVIDIA A100 Tensor Core de 80 GB . Los investigadores también utilizaron GPU NVIDIA RTX A6000 para evaluar las tareas posteriores. El marco se aceleró con las bibliotecas NVIDIA CUDA y NVIDIA cuDNN , para un rendimiento optimizado.
Al probarse en 23 parámetros de patología, MUSK superó a los modelos de IA existentes en varias áreas clave. Se destacó en la comparación de imágenes patológicas con textos médicos correlacionados, lo que lo hizo más eficaz a la hora de recopilar información relevante sobre el paciente. También interpretó preguntas relacionadas con la patología, como la identificación de un área cancerosa o la predicción de la presencia de biomarcadores, con un 73 % de precisión.

Mejoró la detección y clasificación de subtipos de cáncer, incluidos el cáncer de mama, pulmón y colorrectal, hasta en un 10 %, lo que podría ayudar con el diagnóstico temprano y la planificación del tratamiento. También detectó biomarcadores de cáncer de mama con un AUC (una medida de precisión del modelo) del 83 %.
Además, MUSK predijo de manera confiable los resultados de supervivencia del cáncer el 75 % de las veces y qué cánceres de pulmón y gastroesofágico responderían a la inmunoterapia con una precisión del 77 %. Esto es una mejora significativa con respecto a los biomarcadores clínicos estándar, que tienen una precisión de solo el 60-65 %.
“Un hallazgo sorprendente es que los modelos de IA que integran datos multimodales superan sistemáticamente a los basados únicamente en datos de imágenes o texto, lo que pone de relieve el poder de un enfoque multimodal”, afirmó Li. “El verdadero valor de MUSK reside en su capacidad de aprovechar datos de imágenes y texto no emparejados a gran escala para el preentrenamiento, lo que supone un aumento sustancial con respecto a los modelos existentes que requieren datos emparejados”.
Una de las principales ventajas de esta investigación es que puede adaptarse a diferentes entornos clínicos con poca capacitación. Esto podría mejorar la eficiencia en los flujos de trabajo oncológicos y ayudar a los médicos a diagnosticar el cáncer más rápido y, al mismo tiempo, adaptar los tratamientos para obtener mejores resultados para los pacientes.
Su trabajo futuro se centrará en validar el modelo en cohortes de pacientes de distintas instituciones y en aplicaciones de alto riesgo, como la toma de decisiones sobre tratamientos. Los investigadores señalan que será necesaria una validación prospectiva en ensayos clínicos para obtener la aprobación regulatoria.
“También estamos trabajando en una extensión del enfoque MUSK de la patología digital a otros tipos de datos, como imágenes radiológicas y datos genómicos”, afirmó Li.
El trabajo de los investigadores, incluidas las instrucciones de instalación, los pesos del modelo, el código de evaluación y los datos de muestra, está disponible en GitHub . NVIDIA Blog. M. H. Traducido al español