A medida que los modelos lingüísticos de gran tamaño dominan cada vez más nuestra vida cotidiana, los nuevos sistemas para comprobar su fiabilidad son más importantes que nunca.
¿Esta crítica de película es un elogio o una crítica negativa? ¿Se trata de noticias de negocios o de tecnología? ¿Esta conversación de un chatbot en línea se está desviando hacia consejos financieros? ¿Este sitio web de información médica en línea está difundiendo información errónea?
Este tipo de conversaciones automatizadas, ya sea para buscar reseñas de películas o restaurantes, o para obtener información sobre la cuenta bancaria o el historial médico, son cada vez más frecuentes. Más que nunca, estas evaluaciones las realizan algoritmos altamente sofisticados, conocidos como clasificadores de texto, en lugar de seres humanos. Pero ¿cómo podemos saber la precisión real de estas clasificaciones?
Ahora, un equipo del Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT ha ideado un enfoque innovador no sólo para medir qué tan bien estos clasificadores están haciendo su trabajo, sino también para ir un paso más allá y mostrar cómo hacerlos más precisos.
El nuevo software de evaluación y remediación fue dirigido y desarrollado por Lei Xu, en colaboración con la investigación de Sarah Alnegheimish, Kalyan Veeramachaneni, investigadora principal de LIDS y autora principal, y otras dos personas. El paquete de software está disponible para su descarga gratuita para cualquier persona que desee usarlo.
Un método estándar para probar estos sistemas de clasificación consiste en crear ejemplos sintéticos: oraciones que se asemejan mucho a las ya clasificadas. Por ejemplo, los investigadores podrían tomar una oración que un programa clasificador ya ha etiquetado como una reseña positiva y comprobar si, al cambiar una o varias palabras manteniendo el mismo significado, el clasificador podría inducir a error y a considerarla incorrecta. O bien, una oración que se haya determinado como desinformación podría clasificarse erróneamente como correcta. Esta capacidad de inducir a error a los clasificadores convierte a estos ejemplos en ejemplos contradictorios.
Se han probado diversas maneras de encontrar las vulnerabilidades en estos clasificadores, afirma Veeramachaneni. Sin embargo, los métodos existentes para encontrar estas vulnerabilidades presentan dificultades y pasan por alto muchos ejemplos que deberían detectar, añade.
Cada vez más, las empresas intentan utilizar estas herramientas de evaluación en tiempo real, monitorizando el rendimiento de los chatbots utilizados para diversos fines para asegurarse de que no emitan respuestas inapropiadas. Por ejemplo, un banco podría usar un chatbot para responder a consultas rutinarias de los clientes, como consultar el saldo de sus cuentas o solicitar una tarjeta de crédito, pero quiere asegurarse de que sus respuestas nunca se interpreten como asesoramiento financiero, lo que podría exponer a la empresa a responsabilidades. «Antes de mostrar la respuesta del chatbot al usuario final, quieren usar el clasificador de texto para detectar si ofrece asesoramiento financiero o no», afirma Veeramachaneni. Sin embargo, es importante probar ese clasificador para comprobar la fiabilidad de sus evaluaciones.
“Estos chatbots, o motores de resumen, etc., se están implementando de forma generalizada”, afirma, para tratar con clientes externos y también dentro de una organización, por ejemplo, proporcionando información sobre problemas de RR. HH. Es importante integrar estos clasificadores de texto para detectar información que no deberían decir y filtrarla antes de que el resultado se transmita al usuario.
Ahí es donde entra en juego el uso de ejemplos adversariales: aquellas oraciones que ya han sido clasificadas, pero que producen una respuesta diferente al ser ligeramente modificadas, conservando el mismo significado. ¿Cómo se puede confirmar que el significado es el mismo? Mediante otro modelo amplio del lenguaje (LLM) que interpreta y compara significados. Por lo tanto, si el LLM indica que las dos oraciones significan lo mismo, pero el clasificador las etiqueta de forma diferente, «esa es una oración adversarial; puede engañar al clasificador», afirma Veeramachaneni. Y cuando los investigadores examinaron estas oraciones adversariales, «descubrimos que, en la mayoría de los casos, se trataba de un simple cambio de una palabra», aunque quienes utilizaban LLM para generar estas oraciones alternativas a menudo no se daban cuenta de ello.
Investigaciones posteriores, utilizando LLM para analizar miles de ejemplos, demostraron que ciertas palabras específicas tenían una influencia desproporcionada en la alteración de las clasificaciones y, por lo tanto, la prueba de la precisión de un clasificador podía centrarse en este pequeño subconjunto de palabras que parecen marcar la mayor diferencia. Descubrieron que una décima parte del 1 % del total de 30 000 palabras del vocabulario del sistema podía explicar casi la mitad de estas inversiones de clasificación en algunas aplicaciones específicas.
Lei Xu, doctorando (promoción 23), recién graduado de LIDS y quien realizó gran parte del análisis como parte de su tesis, «utilizó diversas técnicas de estimación interesantes para determinar cuáles son las palabras más potentes que pueden alterar la clasificación general y engañar al clasificador», afirma Veeramachaneni. El objetivo es posibilitar búsquedas mucho más específicas, en lugar de analizar todas las posibles sustituciones de palabras, lo que simplifica enormemente la tarea computacional de generar ejemplos contradictorios. «Curiosamente, utiliza modelos lingüísticos amplios para comprender el poder de una sola palabra».
Luego, utilizando también LLM, busca otras palabras estrechamente relacionadas con estas palabras clave, y así sucesivamente, lo que permite una clasificación general de las palabras según su influencia en los resultados. Una vez encontradas estas oraciones adversas, se pueden utilizar para reentrenar el clasificador y que las tenga en cuenta, aumentando así su robustez frente a esos errores.
Aumentar la precisión de los clasificadores puede parecer insignificante si se trata simplemente de clasificar artículos de noticias en categorías o de decidir si las reseñas de cualquier cosa, desde películas hasta restaurantes, son positivas o negativas. Sin embargo, cada vez más, los clasificadores se utilizan en entornos donde los resultados realmente importan, ya sea para prevenir la divulgación involuntaria de información médica, financiera o de seguridad sensible, para ayudar a guiar investigaciones importantes, como las que estudian las propiedades de los compuestos químicos o el plegamiento de proteínas para aplicaciones biomédicas, o para identificar y bloquear el discurso de odio o la desinformación conocida.
Como resultado de esta investigación, el equipo introdujo una nueva métrica, denominada p, que mide la robustez de un clasificador frente a ataques de una sola palabra. Dada la importancia de estas clasificaciones erróneas, el equipo de investigación ha puesto sus productos a disposición de cualquier persona. El paquete consta de dos componentes: SP-Attack, que genera sentencias adversarias para probar los clasificadores en cualquier aplicación, y SP-Defense, cuyo objetivo es mejorar la robustez del clasificador mediante la generación y el uso de sentencias adversarias para reentrenar el modelo.
En algunas pruebas, donde métodos competitivos para evaluar los resultados del clasificador permitieron una tasa de éxito del 66 % en ataques adversarios, el sistema de este equipo redujo esa tasa de éxito casi a la mitad, al 33,7 %. En otras aplicaciones, la mejora fue de tan solo un 2 %, pero incluso eso puede ser bastante importante, afirma Veeramachaneni, ya que estos sistemas se utilizan para miles de millones de interacciones, de modo que incluso un pequeño porcentaje puede afectar a millones de transacciones.
Los resultados del equipo fueron publicados el 7 de julio en la revista Expert Systems en un artículo de Xu, Veeramachaneni y Alnegheimish de LIDS, junto con Laure Berti-Equille en el IRD en Marsella, Francia, y Alfredo Cuesta-Infante en la Universidad Rey Juan Carlos, en España.
MIT News. D. Ch. Traducido al español