
Capacitación de LLM para autodesintoxicar su idioma
Un nuevo método del MIT-IBM Watson AI Lab ayuda a los modelos de lenguaje grande a dirigir sus propias respuestas hacia resultados más seguros, más éticos y alineados con el valor. A medida que maduramos desde la infancia, nuestro vocabulario — y las formas en que lo usamos — crecen, y nuestras experiencias se vuelven más ricas, lo que nos permite pensar, razonar e interactuar con otros con especificidad e intención. En consecuencia, nuestras elecciones de palabras evolucionan para alinearse con nuestros valores personales, ética, normas culturales y puntos de vista. Con el tiempo, la mayoría de nosotros desarrollamos una guía interna “que nos permite aprender el contexto detrás de la conversación; también con frecuencia nos aleja de compartir información y sentimientos que son, o podrían ser, dañinos o inapropiados. Resulta que los modelos de idiomas grandes (LLM) — que están entrenados en conjuntos de datos públicos extensos y, por lo tanto, a menudo tienen sesgos y lenguaje tóxico horneado en — pueden obtener una capacidad similar para moderar su propio idioma. Un nuevo método del MIT, el MIT-IBM Watson AI Lab e IBM Research, llamado muestreo autorregresivo autodisciplinado (SASA), permite a los LLM desintoxicar sus propios resultados, sin sacrificar la fluidez. A diferencia de otros métodos de desintoxicación, este algoritmo de decodificación aprende un límite entre los subespacios tóxicos/no tóxicos dentro de la propia representación interna de los LLMM, sin alterar los parámetros del modelo, la necesidad de reentrenamiento o un modelo de recompensa externo. Luego, durante la inferencia, el algoritmo evalúa el valor de toxicidad de la frase parcialmente generada: tokens (palabras) ya generados y aceptados, junto con cada nuevo token potencial que podría elegirse razonablemente para la proximidad al límite del clasificador. A continuación, selecciona una opción de palabra que coloca la frase en el espacio no tóxico, ofreciendo en última instancia una forma rápida y eficiente de generar un lenguaje menos tóxico. “Queríamos encontrar una manera con cualquier modelo de lenguaje existente [que], durante el proceso de generación, la decodificación puede estar sujeta a algunos valores humanos; el ejemplo aquí que estamos tomando es la toxicidad,” dice el autor principal de los estudios Ching-Yun “Irene” Ko PhD ’24 un ex pasante graduado con el MIT-IBM Watson AI Lab y un científico de investigación actual en IBM Thomas J. Centro de Investigación Watson en Nueva York. Los coautores de Koats incluyen a Luca Daniel, profesor en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT (EECS), miembro del MIT-IBM Watson AI Lab y asesor graduado de Koo; y varios miembros del MIT-IBM Watson AI Lab y/o IBM Research — Pin-Yu Chen, Payel Das, Youssef Mroueh, Soham Dan, Georgios Kollias, Subhajit Chaudhury y Tejaswini Pedapati. El trabajo se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje. Encontrar la “barandillas” Los recursos de capacitación detrás de los LLM casi siempre incluyen contenido recopilado de espacios públicos como Internet y otros conjuntos de datos fácilmente disponibles. Como tal, las palabras de maldición y el lenguaje intimidatorio/inpalable son un componente, aunque parte de ellas se encuentran en el contexto de las obras literarias. Luego se deduce que los LLM pueden producir innatamente — o ser engañados para generar — contenido peligroso y/o sesgado, que a menudo contiene palabras desagradables o lenguaje odioso, incluso a partir de indicaciones inocuas. Además, se ha encontrado que pueden aprender y amplificar el lenguaje que no es preferido o incluso perjudicial para muchas aplicaciones y tareas posteriores — que conducen a la necesidad de estrategias de mitigación o corrección. Hay muchas maneras de lograr una generación de lenguaje sólida que sea justa y alineada con el valor. Algunos métodos utilizan el reentrenamiento LLM con un conjunto de datos desinfectado, que es costoso, lleva tiempo y puede alterar el rendimiento de LLMm; otros emplean modelos de recompensa externos de decodificación, como el muestreo o la búsqueda de haces, que tardan más en ejecutarse y requieren más memoria. En el caso de SASA, Ko, Daniel y el equipo de IBM Research desarrollaron un método que aprovecha la naturaleza autorregresiva de los LLM, y utilizando una estrategia basada en la decodificación durante la inferencia de LLMm, dirige gradualmente la generación — token a la vez — lejos de salidas desagradables o no deseadas y hacia un mejor lenguaje. El grupo de investigación logró esto mediante la construcción de un clasificador lineal que opera en el subespacio aprendido de la incrustación de LLMams. Cuando se entrenan los LLM, las palabras con significados similares se colocan estrechamente juntas en el espacio vectorial y más lejos de palabras diferentes; los investigadores plantearon la hipótesis de que una incrustación de LLMM también capturaría información contextual, que podría usarse para la desintoxicación. Los investigadores utilizaron conjuntos de datos que contenían conjuntos de un mensaje (la primera mitad de una oración o pensamiento), una respuesta (la finalización de esa oración) y anotación atribuida a los humanos, como tóxico o no tóxico, preferido o no preferido, con etiquetas continuas de 0-1, que denotan una toxicidad creciente. Luego se aplicó un clasificador óptimo de Bayes para aprender y dibujar figurativamente una línea entre los subespacios binarios dentro de las incrustaciones de oracionesrepresentado por valores positivos (espacio no tóxico) y números negativos (espacio tóxico). El sistema SASA funciona entonces volviendo a ponderar las probabilidades de muestreo del token potencial más nuevo en función del valor del mismo y la distancia de las frases generadas al clasificador, con el objetivo de permanecer cerca de la distribución de muestreo original. Para ilustrar, si un usuario está generando un token potencial #12 en una oración, el LLM revisará su vocabulario completo en busca de una palabra razonable, basada en las 11 palabras que vinieron antes, y usando top-k, top-p, filtrará y producirá aproximadamente 10 tokens para seleccionar. SASA luego evalúa cada uno de esos tokens en la oración parcialmente completada por su proximidad al clasificador (es decir, el valor de los tokens 1-11, más cada token potencial 12). Se alientan los tokens que producen oraciones en