Después de ser entrenados con esta técnica, los modelos de visión-lenguaje pueden identificar mejor un elemento único en una nueva escena.
Digamos que alguien lleva a su bulldog francés, Bowser, al parque para perros. Identificarlo mientras juega con otros caninos es fácil para el dueño del perro mientras está en el parque.
Pero si alguien quiere usar un modelo de IA generativa como GPT-5 para monitorear a su mascota mientras trabaja, el modelo podría fallar en esta tarea básica. Los modelos de visión-lenguaje como GPT-5 suelen destacar en el reconocimiento de objetos generales, como un perro, pero tienen un rendimiento deficiente en la localización de objetos personalizados, como Bowser, el bulldog francés.
Para abordar esta deficiencia, investigadores del MIT, el Laboratorio de IA Watson del MIT-IBM, el Instituto de Ciencias Weizmann y otros han introducido un nuevo método de entrenamiento que enseña a los modelos de lenguaje de visión a localizar objetos personalizados en una escena.
Su método utiliza datos de seguimiento de video cuidadosamente preparados, en los que se rastrea el mismo objeto a lo largo de múltiples fotogramas. Diseñaron el conjunto de datos de forma que el modelo se centrara en pistas contextuales para identificar el objeto personalizado, en lugar de basarse en el conocimiento memorizado previamente.
Cuando se le dan algunas imágenes de ejemplo que muestran un objeto personalizado, como la mascota de alguien, el modelo reentrenado puede identificar mejor la ubicación de esa misma mascota en una nueva imagen.
Los modelos reentrenados con su método superaron a los sistemas más avanzados en esta tarea. Cabe destacar que su técnica conserva intactas las demás capacidades generales del modelo.
Este nuevo enfoque podría ayudar a los futuros sistemas de IA a rastrear objetos específicos a lo largo del tiempo, como la mochila de un niño, o a localizar objetos de interés, como una especie animal en el monitoreo ecológico. También podría contribuir al desarrollo de tecnologías de asistencia basadas en IA que ayuden a las personas con discapacidad visual a encontrar ciertos objetos en una habitación.
En última instancia, queremos que estos modelos puedan aprender del contexto, al igual que los humanos. Si un modelo puede hacerlo bien, en lugar de reentrenarlo para cada nueva tarea, podríamos simplemente proporcionarle algunos ejemplos y este inferiría cómo realizar la tarea a partir de ese contexto. Esta es una capacidad muy poderosa, afirma Jehanzeb Mirza, investigador posdoctoral del MIT y autor principal de un artículo sobre esta técnica .
Mirza colabora en este artículo con los coautores principales Sivan Doveh, investigador posdoctoral de la Universidad de Stanford y estudiante de posgrado del Instituto de Ciencias Weizmann cuando se realizó esta investigación; Nimrod Shabtay, investigador de IBM Research; James Glass, investigador sénior y director del Grupo de Sistemas de Lenguaje Hablado del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT; entre otros. El trabajo se presentará en la Conferencia Internacional sobre Visión por Computador.
Una deficiencia inesperada
Los investigadores han descubierto que los grandes modelos lingüísticos (LLM) son excelentes para aprender del contexto. Si se les proporcionan algunos ejemplos de una tarea, como problemas de suma, pueden aprender a resolver nuevos problemas de suma basándose en el contexto proporcionado.
Un modelo de visión-lenguaje (VLM) es esencialmente un LLM con un componente visual asociado, por lo que los investigadores del MIT pensaron que heredaría las capacidades de aprendizaje en contexto del LLM. Sin embargo, no fue así.
La comunidad investigadora aún no ha encontrado una solución definitiva a este problema en particular. El cuello de botella podría deberse a que se pierde información visual al fusionar los dos componentes, pero simplemente no lo sabemos —afirma Mirza—.
Los investigadores se propusieron mejorar la capacidad de los VLM para la localización contextual, lo que implica encontrar un objeto específico en una nueva imagen. Se centraron en los datos utilizados para reentrenar los VLM existentes para una nueva tarea, un proceso denominado ajuste fino.
Los datos típicos de ajuste fino se obtienen de fuentes aleatorias y representan colecciones de objetos cotidianos. Una imagen puede mostrar coches aparcados en la calle, mientras que otra incluye un ramo de flores.
“No hay una coherencia real en estos datos, por lo que el modelo nunca aprende a reconocer el mismo objeto en múltiples imágenes”, afirma.
Para solucionar este problema, los investigadores desarrollaron un nuevo conjunto de datos seleccionando muestras de datos de seguimiento de vídeo existentes. Estos datos son videoclips que muestran el mismo objeto moviéndose en una escena, como un tigre caminando por un pastizal.
Cortaron fotogramas de estos vídeos y estructuraron el conjunto de datos para que cada entrada constara de múltiples imágenes que mostraran el mismo objeto en diferentes contextos, con preguntas y respuestas de ejemplo sobre su ubicación.
“Al utilizar múltiples imágenes del mismo objeto en diferentes contextos, alentamos al modelo a localizar consistentemente ese objeto de interés centrándose en el contexto”, explica Mirza.
Forzando el enfoque
Pero los investigadores descubrieron que los VLM tienden a hacer trampa. En lugar de responder basándose en pistas del contexto, identifican el objeto utilizando el conocimiento adquirido durante el preentrenamiento.
Por ejemplo, como el modelo ya aprendió que la imagen de un tigre y la etiqueta “tigre” están correlacionadas, podría identificar al tigre cruzando la pradera basándose en este conocimiento previamente entrenado, en lugar de inferirlo a partir del contexto.
Para solucionar este problema, los investigadores utilizaron seudónimos en lugar de los nombres reales de las categorías de objetos en el conjunto de datos. En este caso, cambiaron el nombre del tigre a «Charlie».
Nos llevó un tiempo descubrir cómo evitar que el modelo hiciera trampa. Pero cambiamos las reglas del juego para el modelo. El modelo no sabe que ‘Charlie’ puede ser un tigre, así que se ve obligado a analizar el contexto, dice.
Los investigadores también se enfrentaron a dificultades para encontrar la mejor manera de preparar los datos. Si los fotogramas están demasiado cerca, el fondo no cambiaría lo suficiente como para proporcionar diversidad de datos.
Finalmente, el ajuste de los VLM con este nuevo conjunto de datos mejoró la precisión de la localización personalizada en un 12 % de media. Al incluir el conjunto de datos con seudónimos, el rendimiento aumentó un 21 %.
A medida que aumenta el tamaño del modelo, su técnica conduce a mayores ganancias de rendimiento.
En el futuro, los investigadores quieren estudiar las posibles razones por las que los VLM no heredan las capacidades de aprendizaje en contexto de sus LLM base. Además, planean explorar mecanismos adicionales para mejorar el rendimiento de un VLM sin necesidad de reentrenarlo con nuevos datos.
Este trabajo replantea la localización personalizada de objetos con pocas tomas (adaptándose sobre la marcha al mismo objeto en nuevas escenas) como un problema de ajuste de instrucciones y utiliza secuencias de seguimiento de video para enseñar a los VLM a localizar basándose en el contexto visual en lugar de en las clases previas. Además, presenta el primer punto de referencia para este entorno, con importantes avances en VLM abiertos y propietarios. Dada la enorme importancia de una base rápida y específica para cada instancia, a menudo sin necesidad de ajustes, para los usuarios de flujos de trabajo del mundo real (como robótica, asistentes de realidad aumentada, herramientas creativas, etc.), la fórmula práctica y centrada en datos que ofrece este trabajo puede contribuir a la adopción generalizada de modelos de base de visión-lenguaje», afirma Saurav Jha, investigador posdoctoral del Instituto de Inteligencia Artificial Mila-Quebec, quien no participó en este trabajo.
Otros coautores son Wei Lin, investigador asociado en la Universidad Johannes Kepler; Eli Schwartz, científico investigador en IBM Research; Hilde Kuehne, profesora de informática en el Centro de IA de Tuebingen y profesora afiliada al Laboratorio de IA Watson del MIT-IBM; Raja Giryes, profesor asociado en la Universidad de Tel Aviv; Rogerio Feris, científico principal y gerente del Laboratorio de IA Watson del MIT-IBM; Leonid Karlinsky, científico investigador principal en IBM Research; Assaf Arbelle, científico investigador sénior en IBM Research; y Shimon Ullman, profesor Samy y Ruth Cohn de informática en el Instituto de Ciencias Weizmann.
Esta investigación fue financiada, en parte, por el MIT-IBM Watson AI Lab.
MIT News. A. Z. Traducido al español

