El Portal de las Tecnologías para la Innovación

Al igual que los cerebros humanos, los grandes modelos de lenguaje razonan sobre diversos datos de una manera general

Un nuevo estudio muestra que los LLM representan diferentes tipos de datos en función de su significado subyacente y la razón sobre los datos en su idioma dominante.

Si bien los primeros modelos de lenguaje solo podían procesar texto, los modelos contemporáneos de grandes idiomas ahora realizan tareas muy diversas en diferentes tipos de datos. Por ejemplo, los LLM pueden entender muchos idiomas, generar código de computadora, resolver problemas matemáticos o responder preguntas sobre imágenes y audio.   

Los investigadores del MIT investigaron el funcionamiento interno de los LLM para comprender mejor cómo procesan estos datos variados y encontraron evidencia de que comparten algunas similitudes con el cerebro humano.

Los neurocientíficos creen que el cerebro humano tiene una “hub” semántica en el lóbulo temporal anterior que integra información semántica de varias modalidades, como datos visuales e entradas táctiles. Este concentrador semántico está conectado a “radios” específicos de la modalidad que enrutan la información al concentrador. Los investigadores del MIT encontraron que los LLM utilizan un mecanismo similar al procesar de manera abstracta datos de diversas modalidades de una manera central y generalizada. Por ejemplo, un modelo que tiene el Inglés como su idioma dominante se basaría en Inglés como un medio central para procesar entradas en japonés o razón sobre la aritmética, código de computadora, etc. Además, los investigadores demuestran que pueden intervenir en un centro semántico de modelaciones mediante el uso de texto en el lenguaje dominante de modelizaciones para cambiar sus resultados, incluso cuando el modelo está procesando datos en otros idiomas.

Estos hallazgos podrían ayudar a los científicos a capacitar a futuros LLM que sean más capaces de manejar datos diversos.

“LLM son grandes cajas negras. Han logrado un rendimiento muy impresionante, pero tenemos muy poco conocimiento sobre sus mecanismos de trabajo internos. Espero que este pueda ser un paso temprano para comprender mejor cómo funcionan para que podamos mejorarlos y controlarlos mejor cuando sea necesario, dice Zhaofeng Wu, estudiante graduado de ingeniería eléctrica e informática (EECS) y autor principal de un documento sobre esta investigación.

Sus coautores incluyen a Xinyan Velocity Yu, un estudiante graduado de la Universidad del Sur de California (USC); Dani Yogatama, profesor asociado de la USC; Jiasen Lu, científico investigador de Apple; y el autor principal Yoon Kim, profesor asistente de EECS en el MIT y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL). La investigación se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje.

Integración de datos diversos

Los investigadores basaron el nuevo estudio en trabajo previo lo que insinuó que los LLM centrados en el inglés usan el inglés para realizar procesos de razonamiento en varios idiomas.

Wu y sus colaboradores ampliaron esta idea, lanzando un estudio en profundidad sobre los mecanismos que utilizan los LLM para procesar datos diversos.

Un LLM, que se compone de muchas capas interconectadas, divide el texto de entrada en palabras o subpalabras llamadas tokens. El modelo asigna una representación a cada token, lo que le permite explorar las relaciones entre los tokens y generar la siguiente palabra en una secuencia. En el caso de imágenes o audio, estos tokens corresponden a regiones particulares de una imagen o secciones de un clip de audio.

Los investigadores encontraron que las capas iniciales de los modelos procesan datos en su lenguaje o modalidad específica, como los radios específicos de la modalidad en el cerebro humano. Luego, el LLM convierte los tokens en representaciones agnósticas de modalidad a medida que razona sobre ellos a lo largo de sus capas internas, similar a cómo el centro semántico del cerebro integra información diversa.

El modelo asigna representaciones similares a entradas con significados similares, a pesar de su tipo de datos, incluyendo imágenes, audio, código de computadora y problemas aritméticos. Aunque una imagen y su título de texto son tipos de datos distintos, porque comparten el mismo significado, el LLM les asignaría representaciones similares.

Por ejemplo, un LLM dominante en inglés “piensa en una entrada de texto chino en inglés antes de generar una salida en chino. El modelo tiene una tendencia de razonamiento similar para entradas que no son de texto como código de computadora, problemas matemáticos o incluso datos multimodales.

Para probar esta hipótesis, los investigadores pasaron un par de oraciones con el mismo significado pero escritas en dos idiomas diferentes a través del modelo. Midieron cuán similares eran las representaciones de modelaciones para cada oración.

Luego realizaron un segundo conjunto de experimentos en los que alimentaron un texto modelo dominante en Inglés en un idioma diferente, como el chino, y midieron cuán similar era su representación interna al Inglés frente al Chino. Los investigadores realizaron experimentos similares para otros tipos de datos.

Constantemente encontraron que las representaciones de modelaciones eran similares para oraciones con significados similares. Además, en muchos tipos de datos, los tokens que el modelo procesó en sus capas internas se parecían más a los tokens centrados en inglés que al tipo de datos de entrada.

“Muchos de estos tipos de datos de entrada parecen extremadamente diferentes del lenguaje, por lo que nos sorprendió mucho poder sondear los tokens en inglés cuando el modelo procesa, por ejemplo, expresiones matemáticas o de codificación, dice ” Wu.

Aprovechando el centro semántico

Los investigadores creen que los LLM pueden aprender esta estrategia de centro semántico durante el entrenamiento porque es una forma económica de procesar datos variados.

“Hay miles de idiomas por ahí, pero gran parte del conocimiento se comparte, como el conocimiento de sentido común o el conocimiento de hechos. El modelo no necesita duplicar ese conocimiento en todos los idiomas, dice ” Wu.

Los investigadores también intentaron intervenir en las capas internas de modelizaciones utilizando texto en inglés cuando estaba procesando otros idiomas. Descubrieron que podían cambiar previsiblemente las salidas del modelo, a pesar de que esas salidas estaban en otros idiomas.

Los científicos podrían aprovechar este fenómeno para alentar al modelo a compartir tanta información como sea posible en diversos tipos de datos, lo que podría aumentar la eficiencia.

Pero, por otro lado, podría haber conceptos o conocimientos que no sean traducibles a través de idiomas o tipos de datos, como el conocimiento culturalmente específico. Los científicos podrían querer que los LLM tengan algunos mecanismos de procesamiento específicos del lenguaje en esos casos.

“¿Cómo comparte al máximo siempre que sea posible, pero también permite que los idiomas tengan algunos mecanismos de procesamiento específicos del idioma? Eso podría explorarse en futuros trabajos sobre arquitecturas de modelos, dice ” Wu.

Además, los investigadores podrían utilizar estas ideas para mejorar los modelos multilingües. A menudo, un modelo dominante en Inglés que aprende a hablar otro idioma perderá parte de su precisión en Inglés. Una mejor comprensión de un centro semántico LLMams podría ayudar a los investigadores a prevenir esta interferencia del lenguaje, dice.

“Comprender cómo los modelos de lenguaje procesan las entradas en todos los idiomas y modalidades es una pregunta clave en la inteligencia artificial. Este artículo hace una conexión interesante con la neurociencia y muestra que la hipótesis propuesta de ‘centro semántico se mantiene en modelos de lenguaje moderno, donde se crean representaciones semánticamente similares de diferentes tipos de datos en las capas intermedias de modelizaciones,’ dice Mor Geva Pipek, profesor asistente en la Escuela de Ciencias de la Computación de la Universidad de Tel Aviv, que no participó en este trabajo. “La hipótesis y los experimentos vinculan y amplían los hallazgos de trabajos anteriores y podrían ser influyentes para futuras investigaciones sobre la creación de mejores modelos multimodales y el estudio de los vínculos entre ellos y la función cerebral y la cognición en humanos

Esta investigación está financiada, en parte, por el MIT-IBM Watson AI Lab. MIT News. Traducido al español

Artículos relacionados

Scroll al inicio