Investigadores de la EPFL han descubierto unidades clave en grandes modelos de IA que parecen ser importantes para el lenguaje, reflejando el sistema lingüístico del cerebro. Al desactivar estas unidades específicas, los modelos empeoraron considerablemente en las tareas lingüísticas.
Los modelos de lenguaje grande (LLM) no solo son buenos para comprender y usar el lenguaje, también pueden razonar o pensar lógicamente, resolver problemas y algunos incluso pueden predecir los pensamientos, creencias o emociones de las personas con las que interactúan.
A pesar de estos impresionantes logros, aún no comprendemos del todo el funcionamiento interno de los LLM, en particular cómo las distintas unidades o módulos realizan distintas tareas. Por ello, investigadores del Laboratorio de NeuroAI, perteneciente a la Facultad de Ciencias de la Computación y la Comunicación (IC) y a la Facultad de Ciencias de la Vida (SV), y del Laboratorio de Procesamiento del Lenguaje Natural (IC), se propusieron averiguar si los LLM cuentan con unidades o módulos especializados que realizan tareas específicas. Esto se inspira en redes descubiertas en el cerebro humano, como la Red del Lenguaje , la Red de Demanda Múltiple y la red de la Teoría de la Mente .
En un artículo presentado este mes en la Conferencia Anual 2025 del Capítulo de las Naciones de las Américas de la Asociación de Lingüística Computacional ,En Albuquerque, Estados Unidos, los investigadores explican cómo investigaron 18 LLM populares y descubrieron que ciertas unidades, de hecho, parecen formar una red central centrada en el lenguaje.
Inspirándonos en enfoques neurocientíficos que han mapeado la organización funcional de nuestro cerebro, comparamos la actividad de una unidad al leer oraciones reales con la de listas de palabras aleatorias. Las unidades que reaccionaron más activamente a oraciones reales se identificaron como «unidades selectivas del lenguaje», al igual que la Red Lingüística de nuestro cerebro, explicó el profesor adjunto Martin Schrimpf, director del Laboratorio de NeuroAI.
Menos de 100 neuronas extremadamente relevantes
Para comprobar la función causal de las unidades selectivas del idioma identificadas, los investigadores las eliminaron y, por separado, eliminaron diferentes conjuntos de unidades aleatorias. A continuación, compararon las diferencias en lo que ocurrió a continuación. Al eliminar las unidades específicas del idioma, pero no las aleatorias, los modelos dejaron de generar texto coherente y no obtuvieron buenos resultados en los parámetros lingüísticos.
Los resultados muestran que estas unidades son realmente importantes para el modelo. La principal sorpresa para nosotros fue que probablemente hay menos de 100 neuronas (aproximadamente el 1 % de las unidades) que parecen ser extremadamente relevantes para cualquier aspecto relacionado con la capacidad del modelo para producir y comprender el lenguaje, y que, al interrumpirlas, el modelo falla por completo de repente —explicó Badr AlKhamisi, asistente de doctorado en los laboratorios de NeuroAI y PNL y autor principal del artículo—.
Existen investigaciones sobre aprendizaje automático e interpretabilidad que han identificado algunas redes o unidades en un modelo relevantes para el lenguaje, pero requirió mucho entrenamiento y fue mucho más complejo que simplemente usar el mismo localizador empleado en neurociencia humana. Realmente no esperábamos que esto funcionara tan bien —continuó—.
Además de las unidades selectivas del lenguaje, esto planteó una pregunta natural: ¿podrían aplicarse también a los LLM los mismos localizadores diseñados para identificar otras redes cerebrales, como la Teoría de la Mente o las redes de demanda múltiple?
Utilizando estos localizadores, los investigadores de la EPFL intentaron evaluar si otras unidades dentro de los modelos se especializaban en razonamiento o pensamiento social y descubrieron que algunos modelos poseían estas unidades de tareas específicas mientras que otros no.
En algunos modelos encontramos unidades de razonamiento y pensamiento especializadas, y en otros no. Una pregunta interesante ahora mismo es: ¿de dónde proviene esto? ¿Por qué algunos modelos tienen esta preferencia? ¿Se relaciona esto con su rendimiento en indicadores relacionados? Si existen unidades algo aisladas, ¿permite esto que el modelo tenga un mejor rendimiento? Quizás esto se relacione con la forma en que se entrenan los modelos o con los datos con los que se entrenan, y esta es una línea de investigación adicional —dijo Schrimpf—.
Otras investigaciones futuras se centrarán en intentar descubrir qué sucede en los modelos multimodelo: modelos que no solo se entrenan con texto sino que también pueden procesar otras modalidades de información, incluidas imágenes, vídeo y sonido.
Estoy muy interesado en esto, ya que los humanos operamos con información del habla y la visión. La pregunta es: si usamos un modelo multimodal y le damos, por ejemplo, el lenguaje como información visual, de forma similar a la lectura de un texto, ¿presentará los mismos déficits lingüísticos que al eliminar la Red Lingüística en los LLM, en comparación con una tarea visual donde tiene que identificar varios objetos o realizar razonamiento matemático? ¿Se mantendrán intactos?, preguntó AlKhamissi.
En términos más generales, los investigadores creen que estos estudios ayudan a resolver el enigma del funcionamiento interno de los grandes modelos de lenguaje, relacionándolos con la neurociencia y estableciendo conexiones con el funcionamiento del cerebro humano.
Si consideramos el daño que sufre la Red del Lenguaje en el cerebro de las personas que han sufrido un ictus, a menudo presentan graves deficiencias del lenguaje, mientras que todo lo demás permanece intacto. Es muy similar en este caso, con el componente del lenguaje LLM, que simplemente produce un galimatías, y aunque no lo hemos probado, probablemente podría funcionar bien en todo lo demás. Esperamos que estos modelos nos ayuden a comprendernos mejor a nosotros mismos y a nuestro cerebro, allanando el camino para un diagnóstico y tratamiento de enfermedades más avanzados», concluyó Schrimpf.
El Laboratorio NeuroAI es parte del Instituto Neuro-X de la EPFL , una comunidad colaborativa e interdisciplinaria que reúne a equipos de la Escuela de Ciencias de la Computación y la Comunicación de la EPFL, la Escuela de Ciencias Vivas y la Escuela de Ingeniería . EPFL News. T. P. Traducido al español