El Portal de las Tecnologías para la Innovación

Un marco de capacitación de código abierto para promover la IA multimodal

Los investigadores de la EPFL han desarrollado 4M , un marco de código abierto de próxima generación para entrenar modelos básicos multimodales versátiles y escalables que van más allá del lenguaje.

Los modelos de lenguaje de gran tamaño, como ChatGPT de OpenAI, ya han transformado la forma en que muchos de nosotros realizamos algunas de nuestras tareas diarias. Estos chatbots de inteligencia artificial generativa están entrenados con lenguaje: cientos de terabytes de texto «extraidos» de Internet y con miles de millones de parámetros.

De cara al futuro, muchos creen que los «motores» que impulsarán la inteligencia artificial generativa serán modelos multimodales que no solo estarán entrenados con texto, sino que también podrán procesar otras modalidades de información, incluidas imágenes, vídeos, sonidos y modalidades de otros dominios, como datos biológicos o atmosféricos.

Sin embargo, hasta hace poco, el entrenamiento de un único modelo para manejar una amplia gama de modalidades (entradas) y tareas (salidas) planteaba importantes desafíos. Por ejemplo, el entrenamiento a menudo conducía a una reducción del rendimiento en comparación con los modelos de una sola tarea y, por lo general, requería estrategias cuidadosas para reducir las pérdidas de calidad y maximizar la precisión. Además, el entrenamiento de una red en diferentes modalidades (o entradas), como el lenguaje, las imágenes o los vídeos que varían enormemente, presentaba complejidades adicionales y el modelo a menudo ignoraba incorrectamente la información esencial en ciertas modalidades.

Modelado multimodal

En un proyecto de varios años llevado a cabo con el apoyo de Apple en California, investigadores de la EPFL del Laboratorio de Inteligencia Visual y Aprendizaje (VILAB) en la Escuela de Ciencias de la Computación y la Comunicación (IC) han desarrollado 4M, para Massively Masked Multimodal Modeling, una de las redes neuronales individuales más avanzadas del mundo para manejar una amplia y variada gama de tareas y modalidades.

En su último artículo de investigación sobre 4M, presentado en diciembre en NeurIPS 2024, la Conferencia Anual sobre Sistemas de Procesamiento de Información Neural, los investigadores describen cómo amplía las capacidades de los modelos existentes de múltiples maneras (consulte el cuadro a continuación para obtener más detalles técnicos).

“Con 4M, ahora tenemos un modelo completo que puede interpretar más que solo el lenguaje. Pero, ¿por qué es importante esto? Una crítica común a los LLM es que su conocimiento no está fundamentado porque los datos de entrenamiento se limitan solo al lenguaje”, explicó el profesor adjunto Amir Zamir, director de VILAB.

“Cuando avanzamos hacia el modelado multimodal, no tenemos que limitarnos al lenguaje. Incorporamos otras modalidades, incluidos los sensores. Por ejemplo, podemos comunicar una naranja a través de la palabra ‘naranja’, al igual que en los modelos de lenguaje, pero también a través de una colección de píxeles, es decir, cómo se ve la naranja, o a través del sentido del tacto, capturando cómo se siente al tocar una naranja. Si reúnes varias modalidades, tienes una encapsulación más completa de la realidad física que estamos tratando de modelar”, continuó.

Intentando modelar la realidad física mediante el ensamblaje de varias modalidades: la imagen muestra un par de naranjas vistas a través de la lente de múltiples modalidades, y cada porción muestra una forma diferente en la que uno podría percibir y entender esta escena.
Las modalidades de izquierda a derecha representan las normales de la superficie (el color representa la orientación de la superficie), la profundidad (distancia a la cámara, rojo=cerca, azul=lejos), RGB (la imagen original), la segmentación (objetos distintos y regiones de la imagen) y los bordes (límites de objetos o texturas).
2025 EPFL/ Visual Intelligence and Learning Laboratory – CC-BY-SA 4.0

Hacia un modelo genérico de código abierto para un uso amplio

A pesar de estos impresionantes avances, Zamir dice que el desarrollo de 4M ha presentado algunos desafíos intrigantes, incluido el hecho de que el modelo no desarrolla una representación verdaderamente unificada en todas las modalidades, y él tiene su propia teoría de por qué.

“Creemos que, en secreto, los modelos hacen trampa y crean un pequeño conjunto de modelos independientes. Un conjunto de parámetros resuelve un problema, otro conjunto de parámetros resuelve otro y, en conjunto, parecen resolver el problema general. Pero no están unificando verdaderamente su conocimiento de una manera que permita una representación conjunta compacta del entorno que sería un buen portal al mundo”.

El equipo de VILAB sigue trabajando en la construcción de una mayor estructura y unificación de 4M, con el objetivo de desarrollar una arquitectura genérica de código abierto, que permita a los expertos de otros dominios adaptarla a sus necesidades específicas, como la modelización climática o la investigación biomédica. El equipo también trabaja en abordar otros aspectos importantes, como aumentar aún más la escalabilidad y los métodos para la especialización de los modelos en contextos de implementación.

“El objetivo del código abierto es que la gente pueda adaptar el modelo a sus necesidades con sus propios datos y especificaciones. 4M llega en el momento adecuado y estamos especialmente entusiasmados con la posibilidad de que otros dominios adopten esta línea de modelado para sus casos de uso específicos. Estamos entusiasmados por ver a dónde nos lleva esto. Pero todavía quedan muchos desafíos y mucho por hacer”, afirmaron Oguzhan Fatih Kar y Roman Bachmann, asistentes de doctorado en VILAB y coautores del artículo.

Basándose en la experiencia del equipo en el desarrollo de 4M y los intrigantes problemas en los que siguen trabajando, Zamir cree que hay algunas preguntas interesantes en torno al desarrollo futuro de los modelos de cimentación.

“Los seres humanos tenemos cinco sentidos clave y, además, aprendemos el lenguaje de manera eficiente, lo que añade etiquetas y estructura al conocimiento que ya estaba basado en estos otros sentidos. Con la IA actual, sucede lo contrario: tenemos modelos de lenguaje sin acceso sensorial al mundo, pero que se entrenan utilizando datos y recursos informáticos colosales. Nuestro objetivo es estudiar el papel de la multimodalidad y desarrollar de manera eficiente un modelo del mundo fundamentado que pueda utilizarse de manera efectiva para usos posteriores”.

4M amplía las capacidades de los modelos existentes en varios ejes clave, entre ellos:

  • Modalidades : 4M permite nuevas capacidades como la predicción de decenas de modalidades a partir de decenas de otras, la recuperación intermodal, la generación controlable y un excelente rendimiento listo para usar. Ha demostrado de manera convincente que un solo modelo puede resolver decenas de tareas diversas sin ninguna pérdida de rendimiento en comparación con los modelos dedicados a una sola tarea y los modelos de última generación.
  • Diversidad : 4M admite diversas modalidades y datos más estructurados, como poses humanas, instancias SAM y metadatos para una generación controlable.
  • Tokenización : 4M investiga la tokenización discreta de diversas modalidades, como incrustaciones de imágenes globales, poses humanas y semántica.
  • Escala : El modelo público se ha escalado a 3 mil millones de parámetros y se ha entrenado con más de 500 mil millones de tokens.
  • Co-entrenamiento : 4M demuestra co-entrenamiento en modelado de visión y lenguaje simultáneamente.

EPFL News. T. P. Traducido al español

Artículos relacionados

Scroll al inicio