Este nuevo modelo de aprendizaje automático puede coincidir con los datos visuales y de audio correspondientes, lo que algún día podría ayudar a los robots a interactuar en el mundo real.
Los humanos aprendemos de forma natural conectando la vista y el sonido. Por ejemplo, podemos observar a alguien tocando el violonchelo y reconocer que sus movimientos generan la música que escuchamos.
Un nuevo enfoque desarrollado por investigadores del MIT y de otras instituciones mejora la capacidad de un modelo de IA para aprender de esta misma manera. Esto podría ser útil en aplicaciones como el periodismo y la producción cinematográfica, donde el modelo podría ayudar a seleccionar contenido multimodal mediante la recuperación automática de vídeo y audio.
A largo plazo, este trabajo podría utilizarse para mejorar la capacidad de un robot para comprender entornos del mundo real, donde la información auditiva y visual a menudo están estrechamente conectadas.
Mejorando el trabajo previo de su grupo, los investigadores crearon un método que ayuda a los modelos de aprendizaje automático a alinear los datos de audio y visuales correspondientes de los videoclips sin necesidad de etiquetas humanas.
Ajustaron el entrenamiento de su modelo original para que aprenda una correspondencia más precisa entre un fotograma de vídeo específico y el audio que se produce en ese momento. Los investigadores también realizaron ajustes arquitectónicos que ayudan al sistema a equilibrar dos objetivos de aprendizaje distintos, lo que mejora el rendimiento.
En conjunto, estas mejoras relativamente sencillas aumentan la precisión de su enfoque en las tareas de recuperación de vídeo y en la clasificación de la acción en escenas audiovisuales. Por ejemplo, el nuevo método podría hacer coincidir de forma automática y precisa el sonido de un portazo con la imagen de la puerta al cerrarse en un vídeo.
“Estamos construyendo sistemas de IA que pueden procesar el mundo como lo hacen los humanos, en términos de recibir información auditiva y visual simultáneamente y procesar ambas modalidades sin problemas. De cara al futuro, si logramos integrar esta tecnología audiovisual en algunas de las herramientas que usamos a diario, como los grandes modelos lingüísticos, podría abrir un gran abanico de nuevas aplicaciones”, afirma Andrew Rouditchenko, estudiante de posgrado del MIT y coautor de un artículo sobre esta investigación .
Lo acompañan en el artículo el autor principal Edson Araujo, un estudiante de posgrado en la Universidad Goethe en Alemania; Yuan Gong, un ex posdoctorado del MIT; Saurabhchand Bhati, un actual posdoctorado del MIT; Samuel Thomas, Brian Kingsbury y Leonid Karlinsky de IBM Research; Rogerio Feris, científico principal y gerente del Laboratorio de IA Watson del MIT-IBM; James Glass, científico investigador sénior y jefe del Grupo de Sistemas de Lenguaje Hablado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL); y la autora sénior Hilde Kuehne, profesora de ciencias de la computación en la Universidad Goethe y profesora afiliada al Laboratorio de IA Watson del MIT-IBM. El trabajo se presentará en la Conferencia sobre Visión por Computador y Reconocimiento de Patrones.
Sincronización
Este trabajo se basa en un método de aprendizaje automático que los investigadores desarrollaron hace unos años, que proporcionó una forma eficiente de entrenar un modelo multimodal para procesar simultáneamente datos de audio y visuales sin la necesidad de etiquetas humanas.
Los investigadores alimentan este modelo, llamado CAV-MAE, con videoclips sin etiquetar, y este codifica los datos visuales y de audio por separado en representaciones llamadas tokens. Utilizando el audio natural de la grabación, el modelo aprende automáticamente a mapear pares correspondientes de tokens visuales y de audio próximos entre sí dentro de su espacio de representación interno.
Descubrieron que el uso de dos objetivos de aprendizaje equilibra el proceso de aprendizaje del modelo, lo que permite a CAV-MAE comprender los datos de audio y visuales correspondientes al tiempo que mejora su capacidad para recuperar videoclips que coinciden con las consultas del usuario.
Pero CAV-MAE trata las muestras de audio y visuales como una unidad, por lo que un videoclip de 10 segundos y el sonido de un portazo se mapean juntos, incluso si ese evento de audio ocurre en solo un segundo del video.
En su modelo mejorado, llamado CAV-MAE Sync, los investigadores dividen el audio en ventanas más pequeñas antes de que el modelo calcule sus representaciones de los datos, de modo que genera representaciones separadas que corresponden a cada ventana de audio más pequeña.
Durante el entrenamiento, el modelo aprende a asociar un fotograma de vídeo con el audio que se produce durante ese fotograma.
“Al hacer eso, el modelo aprende una correspondencia más detallada, lo que mejora el rendimiento más adelante cuando agregamos esta información”, dice Araujo.
También incorporaron mejoras arquitectónicas que ayudan al modelo a equilibrar sus dos objetivos de aprendizaje.
Añadiendo “margen de maniobra”
El modelo incorpora un objetivo contrastivo, donde aprende a asociar datos de audio y visuales similares, y un objetivo de reconstrucción que busca recuperar datos de audio y visuales específicos en función de las consultas del usuario.
En CAV-MAE Sync, los investigadores introdujeron dos nuevos tipos de representaciones de datos, o tokens, para mejorar la capacidad de aprendizaje del modelo.
Incluyen “tokens globales” dedicados que ayudan con el objetivo de aprendizaje contrastivo y “tokens de registro” dedicados que ayudan al modelo a centrarse en detalles importantes para el objetivo de reconstrucción.
En esencia, añadimos un poco más de margen de maniobra al modelo para que pueda realizar cada una de estas dos tareas, la contrastiva y la reconstructiva, de forma más independiente. Esto mejoró el rendimiento general, añade Araujo.
Si bien los investigadores tenían cierta intuición de que estas mejoras optimizarían el rendimiento de CAV-MAE Sync, fue necesaria una cuidadosa combinación de estrategias para cambiar el modelo en la dirección que querían.
“Dado que tenemos múltiples modalidades, necesitamos un buen modelo para ambas modalidades por sí solas, pero también necesitamos lograr que se fusionen y colaboren”, dice Rouditchenko.
Al final, sus mejoras optimizaron la capacidad del modelo para recuperar videos a partir de una consulta de audio y predecir la clase de una escena audiovisual, como un perro ladrando o un instrumento tocando.
Sus resultados fueron más precisos que los de su trabajo anterior y también funcionaron mejor que métodos más complejos y de última generación que requieren mayores cantidades de datos de entrenamiento.
“A veces, ideas muy simples o pequeños patrones que se ven en los datos tienen un gran valor cuando se aplican a un modelo en el que se está trabajando”, dice Araujo.
En el futuro, los investigadores buscan incorporar nuevos modelos que generen mejores representaciones de datos en CAV-MAE Sync, lo que podría mejorar el rendimiento. También buscan que su sistema pueda manejar datos de texto, lo cual representaría un paso importante hacia la generación de un modelo audiovisual de lenguaje extenso.
Este trabajo está financiado, en parte, por el Ministerio Federal de Educación e Investigación de Alemania y el MIT-IBM Watson AI Lab.
MIT News. A. Z. Traducido al español