Este verano, la EPFL y la ETH de Zúrich lanzarán un modelo lingüístico extenso (LLM) desarrollado en infraestructura pública. Desarrollado en la supercomputadora «Alps» del Centro Nacional Suizo de Supercomputación (CSCS), el nuevo LLM marca un hito en la IA de código abierto y la excelencia multilingüe.
A principios de esta semana en Ginebra, alrededor de 50 iniciativas y organizaciones líderes mundiales dedicadas a los LLM de código abierto y a la IA fiable se reunieron en la Cumbre Internacional de Desarrolladores de LLM de Código Abierto. Organizado por los centros de IA de la EPFL y la ETH de Zúrich, el evento marcó un paso significativo en la creación de un ecosistema internacional dinámico y colaborativo para modelos de cimentación abiertos. Los LLM abiertos se consideran cada vez más alternativas fiables a los sistemas comerciales, la mayoría de los cuales se desarrollan a puerta cerrada en Estados Unidos o China.
Los participantes de la cumbre presentaron un avance del próximo lanzamiento de un Máster en Derecho (LLM) totalmente abierto y de desarrollo público, cocreado por investigadores de la EPFL, la ETH de Zúrich y otras universidades suizas, en estrecha colaboración con ingenieros del CSCS. Actualmente en fase de pruebas finales, el modelo podrá descargarse bajo una licencia abierta. El modelo se centra en la transparencia, el rendimiento multilingüe y una amplia accesibilidad.
El modelo será completamente abierto: el código fuente y las ponderaciones estarán disponibles públicamente, y los datos de entrenamiento serán transparentes y reproducibles, lo que facilitará su adopción en los sectores científico, gubernamental, educativo y privado. Este enfoque está diseñado para fomentar la innovación y la rendición de cuentas.
“Los modelos totalmente abiertos permiten aplicaciones de alta confianza y son necesarios para avanzar en la investigación sobre los riesgos y las oportunidades de la IA. Los procesos transparentes también facilitan el cumplimiento normativo”, afirma Imanol Schlag, científico investigador del Centro de IA de la ETH, quien lidera el proyecto junto con los profesores Antoine Bosselut y Martin Jaggi, del Centro de IA de la EPFL.
Multilingüe por diseño
Una característica distintiva del Máster en Derecho (LLM) es su fluidez en más de 1000 idiomas. «Desde el principio, priorizamos la creación de modelos altamente multilingües», afirma Antoine Bosselut.
El modelo base se entrenó con un amplio conjunto de datos de texto en más de 1500 idiomas (aproximadamente el 60 % en inglés y el 40 % en otros idiomas), así como con datos de código y matemáticas. Gracias a la representación de contenido de todos los idiomas y culturas, el modelo resultante mantiene la máxima aplicabilidad global.
Diseñado para escalar e incluir
El modelo se lanzará en dos tamaños: 8 mil millones y 70 mil millones de parámetros, satisfaciendo una amplia gama de necesidades de los usuarios. La versión 70B se ubicará entre los modelos totalmente abiertos más potentes del mundo. El número de parámetros refleja la capacidad del modelo para aprender y generar respuestas complejas.
Se logra una alta confiabilidad mediante el entrenamiento en más de 15 billones de tokens de entrenamiento de alta calidad (unidades que representan una palabra o parte de la palabra), lo que permite una comprensión sólida del lenguaje y casos de uso versátiles.
Prácticas responsables de datos
El Máster en Derecho (LLM) se está desarrollando teniendo debidamente en cuenta las leyes suizas de protección de datos, las leyes suizas de derechos de autor y las obligaciones de transparencia en virtud de la Ley de Inteligencia Artificial de la UE. En un estudio reciente , los líderes del proyecto demostraron que, para la mayoría de las tareas cotidianas y la adquisición de conocimientos generales, es necesario respetar las exclusiones voluntarias del rastreo web durante la adquisición de datos.Prácticamente no produce degradación del rendimiento.
La supercomputadora como facilitadora de la IA soberana
El modelo se entrena en la supercomputadora «Alps» del CSCS de Lugano, una de las plataformas de IA más avanzadas del mundo, equipada con más de 10 000 superchips NVIDIA Grace Hopper. La escala y la arquitectura del sistema permitieron entrenar el modelo de forma eficiente utilizando electricidad 100 % neutra en carbono.
El éxito de «Alps» se vio facilitado significativamente por una larga colaboración de más de 15 años con NVDIA y HPE/Cray. Esta colaboración ha sido fundamental para desarrollar las capacidades de «Alps», garantizando que cumpla con los exigentes requisitos de las cargas de trabajo de IA a gran escala, incluyendo el preentrenamiento de LLM complejos.
“El entrenamiento de este modelo solo es posible gracias a nuestra inversión estratégica en “Alps”, una supercomputadora diseñada específicamente para IA”, afirma Thomas Schulthess, director del CSCS y profesor de la ETH de Zúrich. “Nuestra colaboración duradera con NVIDIA y HPE ejemplifica cómo la colaboración entre instituciones públicas de investigación y líderes del sector puede impulsar una infraestructura soberana, fomentando la innovación abierta, no solo para Suiza, sino para la ciencia y la sociedad en todo el mundo”.
Acceso público y reutilización global
A finales del verano, el LLM se lanzará bajo la licencia Apache 2.0. La documentación adjunta detallará la arquitectura del modelo, los métodos de entrenamiento y las pautas de uso para facilitar su reutilización transparente y un mayor desarrollo.
“Como científicos de instituciones públicas, nuestro objetivo es promover modelos abiertos y permitir que las organizaciones los aprovechen para sus propias aplicaciones”, afirma Antoine Bosselut.
Al adoptar una apertura total, a diferencia de los modelos comerciales que se desarrollan a puerta cerrada, esperamos que nuestro enfoque impulse la innovación en Suiza, en toda Europa y mediante colaboraciones multinacionales. Además, es un factor clave para atraer y fomentar el talento de primer nivel, afirma el profesor de la EPFL, Martin Jaggi.
Acerca de la Iniciativa Suiza de IALanzada en diciembre de 2023 por la EPFL y la ETH de Zúrich, la
Iniciativa Suiza de IA cuenta con el apoyo de más de 10 instituciones académicas en toda Suiza. Con más de 800 investigadores involucrados y acceso a más de 20 millones de horas anuales de GPU en la supercomputadora “Alps” del CSCS, se erige como el mayor esfuerzo de ciencia abierta y código abierto del mundo dedicado a los modelos de cimentación de la IA.La Iniciativa Suiza de IA recibe apoyo financiero de la Junta de la ETH, el órgano de gestión estratégica y supervisión del Dominio ETH (ETH, EPFL, PSI, WSL, Empa, Eawag), para el período de 2025 a 2028.La Iniciativa Suiza de IA está dirigida por investigadores del Centro de IA de la ETH y del Centro de IA de la EPFL, ambos unidades regionales de ELLIS (el Laboratorio Europeo de Aprendizaje y Sistemas Inteligentes), una red paneuropea de IA centrada en la investigación fundamental en IA fiable, innovación técnica e impacto social dentro de las sociedades abiertas de Europa.
Acerca del CSCS:El
Centro Nacional Suizo de Supercomputación (CSCS) es miembro y socio del Consorcio LUMI, lo que permite a científicos suizos acceder a infraestructura de vanguardia en Kajaani (Finlandia). Esto se alinea con la estrategia del CSCS de escalar futuras infraestructuras de computación de escala extrema, significativamente mayores, mediante colaboraciones multinacionales, aprovechando regiones con abundantes recursos hidroeléctricos y de refrigeración, y posicionando la investigación y la innovación en IA para garantizar su relevancia global y su impacto regional.
EPFL News. M. A. y F. M. Traducido al español