El Portal de las Tecnologías para la Innovación

Un estudio muestra que los modelos de lenguaje visual no pueden manejar consultas con palabras de negación

Palabras como “no” y “no” pueden provocar que esta popular clase de modelos de IA falle inesperadamente en entornos de alto riesgo, como el diagnóstico médico.

Imagine a un radiólogo examinando la radiografía de tórax de un paciente nuevo. Observa que el paciente presenta inflamación en el tejido, pero no un agrandamiento del corazón. Para agilizar el diagnóstico, podría usar un modelo de aprendizaje automático de visión y lenguaje para buscar informes de pacientes similares.

Pero si el modelo identifica erróneamente informes con ambas condiciones, el diagnóstico más probable podría ser bastante diferente: si un paciente tiene hinchazón de tejido y un corazón agrandado, es muy probable que la condición esté relacionada con el corazón, pero sin un corazón agrandado podría haber varias causas subyacentes.

En un nuevo estudio, investigadores del MIT han descubierto que los modelos de lenguaje visual tienen una probabilidad extremadamente alta de cometer ese error en situaciones del mundo real porque no entienden la negación: palabras como “no” y “doesn’t” que especifican lo que es falso o está ausente. 

“Esas palabras de negación pueden tener un impacto muy significativo y, si usamos estos modelos a ciegas, podemos encontrarnos con consecuencias catastróficas”, dice Kumail Alhamoud, estudiante de posgrado del MIT y autor principal de este estudio .

Los investigadores probaron la capacidad de los modelos de visión y lenguaje para identificar la negación en los pies de foto. Los modelos a menudo funcionaron tan bien como una suposición aleatoria. Basándose en estos hallazgos, el equipo creó un conjunto de datos de imágenes con sus pies de foto correspondientes que incluyen palabras de negación que describen objetos faltantes.

Demuestran que reentrenar un modelo de visión-lenguaje con este conjunto de datos mejora el rendimiento cuando se le pide que recupere imágenes que no contienen ciertos objetos. También mejora la precisión al responder preguntas de opción múltiple con subtítulos negados.

Sin embargo, los investigadores advierten que se necesita más investigación para abordar las causas fundamentales de este problema. Esperan que su investigación alerte a los usuarios potenciales sobre una deficiencia previamente inadvertida que podría tener graves implicaciones en entornos de alto riesgo donde se utilizan actualmente estos modelos, desde determinar qué pacientes reciben ciertos tratamientos hasta identificar defectos de productos en plantas de fabricación.

“Este es un artículo técnico, pero hay cuestiones más importantes que considerar. Si algo tan fundamental como la negación falla, no deberíamos utilizar modelos de visión/lenguaje a gran escala en muchas de las formas en que los utilizamos actualmente, sin una evaluación exhaustiva”, afirma la autora principal Marzyeh Ghassemi, profesora asociada del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y miembro del Instituto de Ciencias de la Ingeniería Médica y del Laboratorio de Sistemas de Información y Decisión.

A Ghassemi y Alhamoud se unen en este artículo Shaden Alshammari, estudiante de posgrado del MIT; Yonglong Tian, ​​de OpenAI; Guohao Li, exinvestigador posdoctoral de la Universidad de Oxford; Philip HS Torr, profesor de Oxford; y Yoon Kim, profesor adjunto de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT. La investigación se presentará en la Conferencia sobre Visión por Computador y Reconocimiento de Patrones.

Descuidar la negación

Los modelos de visión-lenguaje (VLM) se entrenan utilizando grandes colecciones de imágenes y sus correspondientes subtítulos, que aprenden a codificar como conjuntos de números, denominados representaciones vectoriales. Los modelos utilizan estos vectores para distinguir entre diferentes imágenes.

Un VLM utiliza dos codificadores separados, uno para texto y otro para imágenes, y los codificadores aprenden a generar vectores similares para una imagen y su título de texto correspondiente.

Los pies de foto expresan lo que hay en las imágenes: son una etiqueta positiva. Y ese es, de hecho, el problema. Nadie ve una imagen de un perro saltando una valla y la subtitula diciendo ‘un perro saltando una valla, sin helicópteros’», dice Ghassemi.

Debido a que los conjuntos de datos de títulos de imágenes no contienen ejemplos de negación, los VLM nunca aprenden a identificarla.

Para profundizar en este problema, los investigadores diseñaron dos tareas de referencia que prueban la capacidad de los VLM para comprender la negación.

En el primer caso, utilizaron un modelo de lenguaje extenso (LLM) para reescribir imágenes en un conjunto de datos existente. Para ello, pidieron al LLM que pensara en objetos relacionados que no estaban en la imagen y los incluyera en el texto. Luego, probaron los modelos, pidiéndoles palabras de negación para que recuperaran imágenes que contenían ciertos objetos, pero no otros.

Para la segunda tarea, diseñaron preguntas de opción múltiple que solicitan al lector de texto visual (VLM) seleccionar la descripción más adecuada de una lista de opciones estrechamente relacionadas. Estas descripciones difieren únicamente en que añaden una referencia a un objeto que no aparece en la imagen o niegan un objeto que sí aparece.

Los modelos fallaron con frecuencia en ambas tareas, y el rendimiento de recuperación de imágenes disminuyó casi un 25 % con subtítulos negados. Al responder preguntas de opción múltiple, los mejores modelos solo alcanzaron una precisión del 39 %, y varios modelos obtuvieron resultados iguales o incluso inferiores a los del azar.

Una razón para esta falla es un atajo que los investigadores llaman sesgo de afirmación: los VLM ignoran las palabras de negación y se centran en los objetos de las imágenes.

“Esto no solo ocurre con palabras como ‘no’ y ‘no’. Independientemente de cómo se exprese la negación o la exclusión, los modelos simplemente la ignorarán”, afirma Alhamoud.

Esto fue consistente en todos los VLM que probaron.

“Un problema solucionable”

Dado que los VLM normalmente no se entrenan con títulos de imágenes con negación, los investigadores desarrollaron conjuntos de datos con palabras de negación como un primer paso hacia la solución del problema.

Utilizando un conjunto de datos con 10 millones de pares de títulos de imágenes y textos, pidieron a un LLM que propusiera títulos relacionados que especificaran qué se excluye de las imágenes, lo que produjo nuevos títulos con palabras de negación.

Tenían que tener especial cuidado de que estos subtítulos sintéticos aún se leyeran de forma natural, o podrían provocar que un VLM fallara en el mundo real al enfrentarse a subtítulos más complejos escritos por humanos.

Descubrieron que ajustar los VLM con su conjunto de datos generó mejoras de rendimiento en todos los ámbitos. Esto mejoró la capacidad de recuperación de imágenes de los modelos en aproximadamente un 10 %, a la vez que mejoró el rendimiento en la tarea de respuesta a preguntas de opción múltiple en aproximadamente un 30 %.

Pero nuestra solución no es perfecta. Simplemente estamos recapturando conjuntos de datos, una forma de ampliación de datos. Ni siquiera hemos abordado el funcionamiento de estos modelos, pero esperamos que esto sea una señal de que este problema tiene solución y que otros puedan tomar nuestra solución y mejorarla, afirma Alhamoud.

Al mismo tiempo, espera que su trabajo anime a más usuarios a pensar en el problema que quieren resolver usando un VLM y a diseñar algunos ejemplos para probarlo antes de implementarlo.

En el futuro, los investigadores podrían ampliar este trabajo enseñando a los VLM a procesar texto e imágenes por separado, lo que podría mejorar su capacidad para comprender la negación. Además, podrían desarrollar conjuntos de datos adicionales que incluyan pares de imágenes y pies de foto para aplicaciones específicas, como la atención médica. MIT News. A. Z. Traducido al español

Artículos relacionados

Scroll al inicio