El Portal de las Tecnologías para la Innovación

Más allá de la traducción: haciendo que la IA sea multicultural

Un equipo de investigadores internacionales dirigido por la EPFL desarrolló un punto de referencia multilingüe para determinar la capacidad de los grandes modelos lingüísticos para captar el contexto cultural.

Imagine preguntarle a un bot conversacional como Claude o Chat GPT sobre las normas de tráfico locales en griego. En cuestión de segundos, responde en griego fluido con una respuesta basada en la legislación del Reino Unido. El modelo entendía el idioma, pero no la jurisdicción. Este tipo de fallo ilustra la incapacidad de los Grandes Modelos Lingüísticos (LLM) para comprender el conocimiento regional, cultural y, en este caso, legal, a la vez que dominan muchos idiomas del mundo.

Equipos del Laboratorio de Procesamiento del Lenguaje Natural de la EPFL , Cohere Labs y colaboradores de todo el mundo han desarrollado INCLUDE. Esta herramienta representa un paso significativo hacia una IA más adaptada a los contextos locales. Este punto de referencia permite evaluar si un LLM no solo es preciso en un idioma determinado, sino también capaz de integrar la cultura y las realidades socioculturales asociadas a él. Este enfoque se alinea con los objetivos de la Iniciativa Suiza de IA para crear modelos que reflejen las lenguas y los valores suizos.

“Para ser relevantes y accesibles, los LLM necesitan comprender los matices culturales y regionales. No se trata solo de conocimiento global; se trata de satisfacer las necesidades de los usuarios donde se encuentren”, afirma Angelika Romanou, asistente de doctorado en el Laboratorio de PNL de la EPFL y primera autora del estudio de referencia.

Un punto ciego en la IA multilingüe

Los LLM como GPT-4 y LLaMA-3 han logrado avances impresionantes en la generación y comprensión de textos en docenas de idiomas. Sin embargo, a menudo presentan resultados deficientes incluso en idiomas ampliamente hablados como el urdu o el panyabí, debido a la falta de suficientes datos de entrenamiento de alta calidad.

La mayoría de los criterios de referencia existentes para evaluar los LLM se basan exclusivamente en inglés o se traducen del inglés, lo que introduce sesgos y distorsiones culturales. Los criterios de referencia traducidos suelen presentar problemas como errores de traducción o expresiones poco naturales, comúnmente conocidas como «traductología». Además, la mayoría de los criterios de referencia existentes conservan un sesgo cultural occidentalizado que no refleja las características lingüísticas y regionales únicas del idioma de destino.

INCLUDE adopta un enfoque diferente. En lugar de depender de traducciones, el equipo recopiló más de 197.000 preguntas de opción múltiple de exámenes académicos, profesionales y ocupacionales locales. Todas las preguntas se redactaron en 44 idiomas y 15 alfabetos nativos. Trabajaron directamente con hablantes nativos, con exámenes reales de diversas instituciones auténticas, que abarcaban desde literatura y derecho hasta medicina y licencias marítimas.

El punto de referencia captura tanto el conocimiento regional explícito (como las leyes locales) como las señales culturales implícitas (como las normas sociales o las perspectivas históricas). En las pruebas, los modelos obtuvieron sistemáticamente peores resultados en la historia regional que en la historia mundial general, incluso dentro del mismo idioma. En otras palabras, la IA aún no comprende el contexto local.

Por ejemplo, al preguntar qué tipo de atuendo tradicional se usa en la India, la respuesta será siempre el sari, en todos los idiomas. Sin embargo, al preguntar «¿Por qué Alejandro Magno incendió Persépolis en el 330 a. C.?», los modelos actuales no reflejan las particularidades regionales. Una narrativa de corte persa podría interpretarlo como una falta de respeto a la cultura y la sociedad persas, mientras que una narrativa de corte griego podría describirlo como una venganza por la invasión persa de Grecia por parte de Jerjes. Estas interpretaciones con una fuerte carga cultural plantean verdaderos desafíos para la IA», afirma Negar Foroutan, asistente de doctorado en el laboratorio de PLN y coautor del estudio de referencia.

Descripción general de INCLUDE.
(a) Motivación: Los estándares multilingües deben reflejar el conocimiento cultural y regional de los entornos lingüísticos en los que se utilizarán.
(b) INCLUDE es un estándar multilingüe compilado a partir de exámenes de licencia académica, profesional y ocupacional que refleja el conocimiento regional y cultural en 44 idiomas.
© 2025 EPFL / Laboratorio de Procesamiento del Lenguaje Natural

Resultados mixtos para los modelos actuales

El equipo de investigación evaluó los modelos líderes, como GPT-4o, LLaMA-3 y Aya-expanse, y evaluó su rendimiento por tema dentro de los idiomas. GPT-4o presenta el mejor rendimiento en general, con una precisión promedio de alrededor del 77 % en todos los dominios. Si bien los modelos obtuvieron buenos resultados en francés y español, presentaron dificultades en idiomas como armenio, griego y urdu, especialmente en temas con un enfoque cultural o profesional. Con frecuencia, recurrieron a suposiciones occidentales o generaron respuestas seguras pero incorrectas.

Hacia una IA más inclusiva

INCLUDE va ​​más allá de un simple referente técnico. A medida que los sistemas de IA se utilizan cada vez más en la educación, la salud, la gobernanza y el derecho, la comprensión regional cobra una importancia crucial. «Con la democratización de la IA, estos modelos deben adaptarse a las cosmovisiones y realidades de las diferentes comunidades», afirma Antoine Bosselut, director del Laboratorio de Procesamiento del Lenguaje Natural.

INCLUDE, publicado y ya adoptado por algunos de los principales proveedores de LLM, ofrece una herramienta práctica para replantear cómo evaluamos y entrenamos modelos de IA con mayor equidad e inclusión. El equipo ya está trabajando en una nueva versión del benchmark, que se ampliará a unos 100 idiomas. Esto incluye variedades regionales como el francés de Bélgica, Canadá y Suiza, así como idiomas subrepresentados de África y Latinoamérica.

Con una adopción más amplia, indicadores como INCLUDE podrían contribuir a la definición de estándares internacionales, e incluso marcos regulatorios, para una IA responsable. Además, allanan el camino para modelos especializados en ámbitos cruciales como la medicina, el derecho y la educación, donde comprender el contexto local es esencial.

Acerca de la Iniciativa Suiza de Inteligencia Artificial

Lanzada en diciembre de 2023 por la EPFL y la ETH de Zúrich, la Iniciativa Suiza de IA cuenta con el apoyo de más de 10 instituciones académicas en toda Suiza. Con más de 800 investigadores involucrados y acceso a 10 millones de horas de GPU, se erige como la mayor iniciativa mundial de ciencia abierta y código abierto dedicada a los modelos básicos de IA. INCLUDE es el resultado del trabajo conjunto de la EPFL, la ETH de Zúrich y Cohere Labs.

Referencias

INCLUYE: Evaluación de la comprensión lingüística multilingüe con conocimiento regional
Angelika Romanou, Negar Foroutan, Anna Sotnikova, Zeming Chen, Sree
Harsha Nelaturu, Shivalika Singh, Rishabh Maheshwary, Micol Altomare,
Mohamed A. Haggag, Imanol Schlag
Marzieh Fadaee, Sara Hooker, Antoine Bosselut
https://doi.org/10.48550/arXiv.2411.19799

EPFL News. A. M. Traducido al español

Artículos relacionados

Scroll al inicio