Cómo las IA entienden las palabras

Los investigadores de la EPFL han creado un modelo matemático que ayuda a explicar cómo la división del lenguaje en secuencias hace que una inteligencia artificial moderna, como los chatbots, sea tan buena a la hora de comprender y usar palabras.

No cabe duda de que la tecnología de IA domina nuestro mundo actual. El progreso parece avanzar a pasos agigantados, especialmente en modelos de lenguaje extenso (LLM) como chatGPT.

Pero ¿cómo funcionan? Los LLM se componen de redes neuronales que procesan largas secuencias de «tokens». Cada token suele ser una palabra o parte de una palabra y se representa mediante una lista de cientos o miles de números, lo que los investigadores denominan un «vector de alta dimensión». Esta lista captura el significado de la palabra y cómo se usa.

Por ejemplo, la palabra «gato» podría convertirse en una lista como [0.15, -0.22, 0.47, …, 0.09], mientras que «perro» se codifica de forma similar, pero con sus propios números únicos. Las palabras con significados similares obtienen listas similares, por lo que el LLM puede reconocer que «gato» y «perro» son más parecidos que «gato» y «plátano».

Una caja negra, incluso para los expertos

Procesar el lenguaje como secuencias de estos vectores es claramente efectivo, pero, irónicamente, no entendemos bien por qué. Los modelos matemáticos simples para secuencias largas de estos tokens de alta dimensión aún están prácticamente sin explorar.

Esto deja una brecha en nuestra comprensión: ¿por qué este enfoque funciona tan bien y qué lo diferencia fundamentalmente de los métodos anteriores? ¿Por qué es mejor presentar los datos a las redes neuronales como secuencias de tokens de alta dimensión en lugar de como una única y larga lista de números? Si bien la IA actual puede escribir historias o responder preguntas de forma impresionante, el funcionamiento interno que lo hace posible sigue siendo un misterio, incluso para los expertos.

Ahora, un equipo de científicos, dirigido por Lenka Zdeborová en la EPFL, ha construido el modelo matemático más simple posible que aún capta la esencia del aprendizaje a partir de tokens, como lo hacen los LLM. Su modelo, llamado Regresión de Secuencia Bilineal (BSR), elimina la complejidad de la IA del mundo real, pero conserva parte de su estructura esencial y funciona como un campo de juego teórico para estudiar cómo los modelos de IA aprenden de las secuencias.

¿Cómo funciona el BSR? Imagina una oración donde cada palabra se puede convertir en una lista de números que captura su significado, como hacen los LLM. Estas listas se alinean en una tabla, con una fila por palabra. Esta tabla registra la secuencia completa y todos los detalles de cada palabra.

Un claro punto de referencia matemático

En lugar de procesar toda la información a la vez, como los modelos de IA más antiguos, BSR analiza las filas de la tabla de una manera y la columna de otra. El modelo utiliza esta información para predecir un único resultado, como el sentimiento de la oración.

La ventaja de BSR reside en su simplicidad, que permite su completa resolución matemática. Esto permite a los investigadores ver con exactitud cuándo el aprendizaje basado en secuencias empieza a funcionar y cuántos datos se necesitan para que un modelo aprenda de forma fiable de los patrones en las secuencias.

BSR explica por qué obtenemos mejores resultados usando una secuencia de incrustaciones que aplanando todos los datos en un gran vector. El modelo reveló umbrales precisos donde el aprendizaje pasa de inútil a efectivo una vez que detecta suficientes ejemplos.

Esta investigación ofrece una nueva perspectiva para comprender el funcionamiento interno de los grandes modelos lingüísticos. Al resolver el BSR con precisión, el equipo proporciona un punto de referencia matemático claro que avanza hacia una teoría que pueda guiar el diseño de futuros sistemas de IA. Estos conocimientos podrían ayudar a los científicos a construir modelos más simples, más eficientes y, posiblemente, más transparentes.

Otros colaboradores

ETH Zúrich
Universidad Bocconi

Fondos

Fundación Nacional Suiza para la Ciencia

Referencias

Vittorio Erba, Emanuele Troiani, Luca Biggio, Antoine Maillard, Lenka Zdeborová. Regresión de secuencia bilineal: Un modelo para el aprendizaje a partir de secuencias largas de tokens de alta dimensión. PRX, 16 de junio de 2025. DOI: 10.1103/l4p2-vrxt

EPFL News. Traducido al español

Buscá noticias

Seleccioná una categoría

Artículos relacionados

Ubisoft

Assassin’s Creed Mirage: Valle de los Recuerdos se publica gratis el 18 de noviembre

Valle de los Recuerdos es una actualización gratuita para todos los jugadores de Assassin’s Creed Mirage que ofrece hasta seis horas de juego e historia adicionales. La historia de Valle de los Recuerdos se ambienta antes del final de la aventura principal y empieza cuando Basim descubre que su padre desaparecido podría encontrarse en Al-Ula. Basim emprende un viaje para comprobar si los rumores son ciertos, pero descubre que una peligrosa banda de ladrones amenaza el valle de Al-Ula y que su padre ha desaparecido.

Continuar leyendo...

Huawei

Huawei presenta su visión de sinergia submarino-terrestre y orquestación óptica-inteligente

Huawei presentó su visión de sinergia submarino-terrestre y orquestación óptica-inteligente. En su debut en Submarine Networks World 2025, el principal evento de comunicaciones submarinas en Singapur, la compañía presentó una solución innovadora y productos estrella diseñados para facilitar la integración y la sinergia eficiente entre las redes submarinas y terrestres.