El Portal de las Tecnologías para la Innovación

Capacitación de LLM para autodesintoxicar su idioma

Un nuevo método del MIT-IBM Watson AI Lab ayuda a los modelos de lenguaje grande a dirigir sus propias respuestas hacia resultados más seguros, más éticos y alineados con el valor.

A medida que maduramos desde la infancia, nuestro vocabulario — y las formas en que lo usamos — crecen, y nuestras experiencias se vuelven más ricas, lo que nos permite pensar, razonar e interactuar con otros con especificidad e intención. En consecuencia, nuestras elecciones de palabras evolucionan para alinearse con nuestros valores personales, ética, normas culturales y puntos de vista. Con el tiempo, la mayoría de nosotros desarrollamos una guía interna “que nos permite aprender el contexto detrás de la conversación; también con frecuencia nos aleja de compartir información y sentimientos que son, o podrían ser, dañinos o inapropiados. Resulta que los modelos de idiomas grandes (LLM) — que están entrenados en conjuntos de datos públicos extensos y, por lo tanto, a menudo tienen sesgos y lenguaje tóxico horneado en — pueden obtener una capacidad similar para moderar su propio idioma.

Un nuevo método del MIT, el MIT-IBM Watson AI Lab e IBM Research, llamado muestreo autorregresivo autodisciplinado (SASA), permite a los LLM desintoxicar sus propios resultados, sin sacrificar la fluidez. 

A diferencia de otros métodos de desintoxicación, este algoritmo de decodificación aprende un límite entre los subespacios tóxicos/no tóxicos dentro de la propia representación interna de los LLMM, sin alterar los parámetros del modelo, la necesidad de reentrenamiento o un modelo de recompensa externo. Luego, durante la inferencia, el algoritmo evalúa el valor de toxicidad de la frase parcialmente generada: tokens (palabras) ya generados y aceptados, junto con cada nuevo token potencial que podría elegirse razonablemente para la proximidad al límite del clasificador. A continuación, selecciona una opción de palabra que coloca la frase en el espacio no tóxico, ofreciendo en última instancia una forma rápida y eficiente de generar un lenguaje menos tóxico.

“Queríamos encontrar una manera con cualquier modelo de lenguaje existente [que], durante el proceso de generación, la decodificación puede estar sujeta a algunos valores humanos; el ejemplo aquí que estamos tomando es la toxicidad,” dice el autor principal de los estudios Ching-Yun “Irene” Ko PhD ’24 un ex pasante graduado con el MIT-IBM Watson AI Lab y un científico de investigación actual en IBM Thomas J. Centro de Investigación Watson en Nueva York.

Los coautores de Koats incluyen a Luca Daniel, profesor en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT (EECS), miembro del MIT-IBM Watson AI Lab y asesor graduado de Koo; y varios miembros del MIT-IBM Watson AI Lab y/o IBM Research — Pin-Yu Chen, Payel Das, Youssef Mroueh, Soham Dan, Georgios Kollias, Subhajit Chaudhury y Tejaswini Pedapati. El trabajo se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje.

Encontrar la “barandillas”

Los recursos de capacitación detrás de los LLM casi siempre incluyen contenido recopilado de espacios públicos como Internet y otros conjuntos de datos fácilmente disponibles. Como tal, las palabras de maldición y el lenguaje intimidatorio/inpalable son un componente, aunque parte de ellas se encuentran en el contexto de las obras literarias. Luego se deduce que los LLM pueden producir innatamente — o ser engañados para generar — contenido peligroso y/o sesgado, que a menudo contiene palabras desagradables o lenguaje odioso, incluso a partir de indicaciones inocuas. Además, se ha encontrado que pueden aprender y amplificar el lenguaje que no es preferido o incluso perjudicial para muchas aplicaciones y tareas posteriores — que conducen a la necesidad de estrategias de mitigación o corrección.

Hay muchas maneras de lograr una generación de lenguaje sólida que sea justa y alineada con el valor. Algunos métodos utilizan el reentrenamiento LLM con un conjunto de datos desinfectado, que es costoso, lleva tiempo y puede alterar el rendimiento de LLMm; otros emplean modelos de recompensa externos de decodificación, como el muestreo o la búsqueda de haces, que tardan más en ejecutarse y requieren más memoria. En el caso de SASA, Ko, Daniel y el equipo de IBM Research desarrollaron un método que aprovecha la naturaleza autorregresiva de los LLM, y utilizando una estrategia basada en la decodificación durante la inferencia de LLMm, dirige gradualmente la generación — token a la vez — lejos de salidas desagradables o no deseadas y hacia un mejor lenguaje.

El grupo de investigación logró esto mediante la construcción de un clasificador lineal que opera en el subespacio aprendido de la incrustación de LLMams. Cuando se entrenan los LLM, las palabras con significados similares se colocan estrechamente juntas en el espacio vectorial y más lejos de palabras diferentes; los investigadores plantearon la hipótesis de que una incrustación de LLMM también capturaría información contextual, que podría usarse para la desintoxicación. Los investigadores utilizaron conjuntos de datos que contenían conjuntos de un mensaje (la primera mitad de una oración o pensamiento), una respuesta (la finalización de esa oración) y anotación atribuida a los humanos, como tóxico o no tóxico, preferido o no preferido, con etiquetas continuas de 0-1, que denotan una toxicidad creciente. Luego se aplicó un clasificador óptimo de Bayes para aprender y dibujar figurativamente una línea entre los subespacios binarios dentro de las incrustaciones de oracionesrepresentado por valores positivos (espacio no tóxico) y números negativos (espacio tóxico). 

El sistema SASA funciona entonces volviendo a ponderar las probabilidades de muestreo del token potencial más nuevo en función del valor del mismo y la distancia de las frases generadas al clasificador, con el objetivo de permanecer cerca de la distribución de muestreo original.

Para ilustrar, si un usuario está generando un token potencial #12 en una oración, el LLM revisará su vocabulario completo en busca de una palabra razonable, basada en las 11 palabras que vinieron antes, y usando top-k, top-p, filtrará y producirá aproximadamente 10 tokens para seleccionar. SASA luego evalúa cada uno de esos tokens en la oración parcialmente completada por su proximidad al clasificador (es decir, el valor de los tokens 1-11, más cada token potencial 12). Se alientan los tokens que producen oraciones en el espacio positivo, mientras que los que están en el espacio negativo son penalizados. Además, cuanto más lejos del clasificador, más fuerte es el impacto.

“El objetivo es cambiar el proceso de muestreo autorregresivo volviendo a ponderar la probabilidad de buenos tokens. Si es probable que el siguiente token sea tóxico dado el contexto, entonces vamos a reducir la probabilidad de muestreo para aquellos propensos a ser tokens tóxicos,” dice Ko. Los investigadores eligieron hacerlo de esta manera “porque las cosas que decimos, ya sea benignas o no, están sujetas al contexto.”

Aplique la toxicidad para la comparación de valores

Los investigadores evaluaron su método contra varias intervenciones de referencia con tres LLM de tamaño creciente; todos fueron transformadores y autorregresivos: GPT2-Large, Llama2-7b y Llama 3.1-8b-Instruct, con 762 millones, 7 mil millones y 8 mil millones de parámetros respectivamente. Para cada mensaje, el LLM se encargó de completar la oración/frase 25 veces, y PerspectiveAPI los calificó de 0 a 1, con algo más de 0.5 siendo tóxico. El equipo analizó dos métricas: la puntuación de toxicidad máxima promedio durante las 25 generaciones para todas las indicaciones, y la tasa tóxica, que era la probabilidad de producir al menos una frase tóxica durante 25 generaciones. También se analizaron la fluidez reducida (y por lo tanto la perplejidad aumentada). SASA se probó para completar los conjuntos de datos RealToxicityPrompts (RPT), BOLD y AttaQ, que contenían datos naturalesIndica oración en inglés.

Los investigadores aumentaron la complejidad de sus ensayos para la desintoxicación por SASA, comenzando con indicaciones no tóxicas del conjunto de datos de RPT, en busca de terminaciones de oraciones dañinas. Luego, lo escalaron a indicaciones más desafiantes de RPT que tenían más probabilidades de producir resultados preocupantes, y también aplicaron SASA al modelo ajustado por instrucción para evaluar si su técnica podría reducir aún más las ouputs no deseadas. También utilizaron los puntos de referencia BOLD y AttaQ para examinar la aplicabilidad general de SASA en la desintoxicación. Con el conjunto de datos BOLD, los investigadores buscaron además el sesgo de género en las generaciones de idiomas y trataron de lograr una tasa tóxica equilibrada entre los géneros. Por último, el equipo analizó el tiempo de ejecución, el uso de la memoria y cómo SASA podría combinarse con el filtrado de palabras para lograr una generación de lenguaje saludable y/o útil.

“Si pensamos en cómo piensan y reaccionan los seres humanos en el mundo, vemos cosas malas, por lo que no se trata de permitir que el modelo de lenguaje vea solo las cosas buenas. Se trata de comprender el espectro completo — tanto bueno como malo,” dice Ko, “y elegir mantener nuestros valores cuando hablamos y actuamos

En general, SASA logró reducciones significativas en la generación de lenguaje tóxico, actuando a la par con RAD, una técnica de modelo de recompensa externa de última generación. Sin embargo, se observó universalmente que una desintoxicación más fuerte acompañaba una disminución de la fluidez. Antes de la intervención, los LLM produjeron respuestas más tóxicas para las indicaciones etiquetadas femeninas que para los hombres; sin embargo, SASA también pudo reducir significativamente las respuestas dañinas, haciéndolas más igualadas. Del mismo modo, el filtrado de palabras sobre SASA redujo notablemente los niveles de toxicidad, pero también obstaculizó la capacidad del LLM para responder de manera coherente.

Un gran aspecto de este trabajo es que es un problema de optimización bien definido y restringido, dice Ko, lo que significa que se puede lograr y ajustar el equilibrio entre la generación de lenguaje abierto que suena natural y la necesidad de reducir el lenguaje no deseado.

Además, dice Ko, SASA podría funcionar bien para múltiples atributos en el futuro: “Para los seres humanos, tenemos múltiples valores humanos. No queremos decir cosas tóxicas, pero también queremos ser veraces, útiles y leales … Si afinas un modelo para todos estos valores, requeriría más recursos computacionales y, por supuesto, capacitación adicional.” Debido a la forma ligera de SASA, podría aplicarse fácilmente en estas circunstancias: “Si quieres trabajar con múltiples valores, simplemente está verificando la posición de los generationios en múltiples subespacios. Solo agrega gastos generales marginales en términos de cómputo y parámetros, dice Ko, lo que lleva a un lenguaje más positivo, justo y alineado con los principios.

Este trabajo fue apoyado, en parte, por el MIT-IBM Watson AI Lab y la National Science Foundation.

MIT News. L. H. Traducido al español

Artículos relacionados

Scroll al inicio