Los investigadores de la EPFL han creado un modelo matemático que ayuda a explicar cómo la división del lenguaje en secuencias hace que una inteligencia artificial moderna, como los chatbots, sea tan buena a la hora de comprender y usar palabras.
No cabe duda de que la tecnología de IA domina nuestro mundo actual. El progreso parece avanzar a pasos agigantados, especialmente en modelos de lenguaje extenso (LLM) como chatGPT.
Pero ¿cómo funcionan? Los LLM se componen de redes neuronales que procesan largas secuencias de «tokens». Cada token suele ser una palabra o parte de una palabra y se representa mediante una lista de cientos o miles de números, lo que los investigadores denominan un «vector de alta dimensión». Esta lista captura el significado de la palabra y cómo se usa.
Por ejemplo, la palabra «gato» podría convertirse en una lista como [0.15, -0.22, 0.47, …, 0.09], mientras que «perro» se codifica de forma similar, pero con sus propios números únicos. Las palabras con significados similares obtienen listas similares, por lo que el LLM puede reconocer que «gato» y «perro» son más parecidos que «gato» y «plátano».
Una caja negra, incluso para los expertos
Procesar el lenguaje como secuencias de estos vectores es claramente efectivo, pero, irónicamente, no entendemos bien por qué. Los modelos matemáticos simples para secuencias largas de estos tokens de alta dimensión aún están prácticamente sin explorar.
Esto deja una brecha en nuestra comprensión: ¿por qué este enfoque funciona tan bien y qué lo diferencia fundamentalmente de los métodos anteriores? ¿Por qué es mejor presentar los datos a las redes neuronales como secuencias de tokens de alta dimensión en lugar de como una única y larga lista de números? Si bien la IA actual puede escribir historias o responder preguntas de forma impresionante, el funcionamiento interno que lo hace posible sigue siendo un misterio, incluso para los expertos.
Ahora, un equipo de científicos, dirigido por Lenka Zdeborová en la EPFL, ha construido el modelo matemático más simple posible que aún capta la esencia del aprendizaje a partir de tokens, como lo hacen los LLM. Su modelo, llamado Regresión de Secuencia Bilineal (BSR), elimina la complejidad de la IA del mundo real, pero conserva parte de su estructura esencial y funciona como un campo de juego teórico para estudiar cómo los modelos de IA aprenden de las secuencias.
¿Cómo funciona el BSR? Imagina una oración donde cada palabra se puede convertir en una lista de números que captura su significado, como hacen los LLM. Estas listas se alinean en una tabla, con una fila por palabra. Esta tabla registra la secuencia completa y todos los detalles de cada palabra.
Un claro punto de referencia matemático
En lugar de procesar toda la información a la vez, como los modelos de IA más antiguos, BSR analiza las filas de la tabla de una manera y la columna de otra. El modelo utiliza esta información para predecir un único resultado, como el sentimiento de la oración.
La ventaja de BSR reside en su simplicidad, que permite su completa resolución matemática. Esto permite a los investigadores ver con exactitud cuándo el aprendizaje basado en secuencias empieza a funcionar y cuántos datos se necesitan para que un modelo aprenda de forma fiable de los patrones en las secuencias.
BSR explica por qué obtenemos mejores resultados usando una secuencia de incrustaciones que aplanando todos los datos en un gran vector. El modelo reveló umbrales precisos donde el aprendizaje pasa de inútil a efectivo una vez que detecta suficientes ejemplos.
Esta investigación ofrece una nueva perspectiva para comprender el funcionamiento interno de los grandes modelos lingüísticos. Al resolver el BSR con precisión, el equipo proporciona un punto de referencia matemático claro que avanza hacia una teoría que pueda guiar el diseño de futuros sistemas de IA. Estos conocimientos podrían ayudar a los científicos a construir modelos más simples, más eficientes y, posiblemente, más transparentes.
Otros colaboradores
- ETH Zúrich
- Universidad Bocconi
Fondos
Fundación Nacional Suiza para la Ciencia
Referencias
Vittorio Erba, Emanuele Troiani, Luca Biggio, Antoine Maillard, Lenka Zdeborová. Regresión de secuencia bilineal: Un modelo para el aprendizaje a partir de secuencias largas de tokens de alta dimensión. PRX, 16 de junio de 2025. DOI: 10.1103/l4p2-vrxt
EPFL News. Traducido al español