El Portal de las Tecnologías para la Innovación

Incorporación de Llama al primer modelo de lenguaje de audio de código abierto de la India

Sarvam AI se fundó con la visión de empoderar a la población de la India mediante la creación de soluciones de inteligencia artificial generativa integrales, cambiando así la forma en que más de mil millones de personas de todo el país interactúan con la tecnología. 

 La empresa utilizó Llama para desarrollar agentes de inteligencia artificial de voz empresariales con capacidades de razonamiento mejoradas y que dominan 10 idiomas indios.

Sarvam aprovechó Llama para desarrollar Shuka v1 , el primer modelo de lenguaje de audio de código abierto de la India. Llama actúa como decodificador en Shuka y procesa los tokens de audio generados por el codificador de audio de Sarvam. Los tokens capturan matices fonéticos y lingüísticos de las entradas de audio, que Llama decodifica en respuestas basadas en texto. La configuración permite a Shuka interpretar y responder a consultas de voz en idiomas indios de forma precisa y eficiente.

“Llama es fundamental para garantizar que las respuestas de Shuka sean contextualmente relevantes y lingüísticamente precisas, incluso en idiomas como el gujarati, el hindi, el kannada y el maratí, donde los modelos de voz son limitados”, afirma el Dr. Pratyush Kumar, cofundador de Sarvam AI. “El desarrollo de aplicaciones que prioricen la voz es fundamental en países como la India, donde los usuarios prefieren interactuar a través de la voz en lugar de texto para determinadas aplicaciones”.

Shuka ofrece un enfoque viable para la inteligencia artificial basada en la voz en idiomas regionales y supone un gran avance en la comprensión de audio multilingüe. Las empresas pueden comunicarse más fácilmente con los clientes en gujarati, hindi, kannada, maratí y otros idiomas indios a través de interacciones accesibles basadas en la voz.

“Como el modelo puede decodificar audio de forma nativa en varios idiomas, abre nuevas posibilidades para aplicaciones de IA conversacional, como la educación y la atención al cliente”, afirma Kumar. “Y como Shuka es de código abierto, los departamentos gubernamentales y las industrias reguladas pueden usarlo implementándolo en sus propias instalaciones, sin preocuparse de que se compartan datos confidenciales con terceros”.

Decodificación de idiomas de forma asequible

El equipo de Sarvam eligió la versión 8B-Instruct de Llama 3 para el modelo v1 debido a su equilibrio entre eficiencia computacional y precisión, lo que la hace ideal para decodificar idiomas índicos en un entorno de bajos recursos.

El interés inicial del equipo en Llama surgió por su desempeño en tareas basadas en texto. Exploraron la posibilidad de adaptar el modelo para decodificar entradas de audio cuando se combinaba con el codificador de audio personalizado de Sarvam para idiomas índicos, en los que el modelo de Llama no había sido entrenado en profundidad. El objetivo era ampliar las capacidades de Llama desde modelos de solo texto a una solución multimodal que pudiera interpretar el habla en idiomas índicos.

Cuando se hizo evidente el potencial de Llama para aplicaciones de audio, el equipo ejecutó su plan rápidamente. Al combinar Llama con el codificador Saaras v1 de Sarvam y una capa de proyector personalizada de 60 millones de parámetros, el equipo amplió la utilidad de Llama para manejar entradas de audio.

Desarrollo de una capa de proyector para cerrar una brecha

Para adaptar Llama para que funcione de manera eficaz con entradas de audio, el equipo entrenó una capa de proyección con alrededor de 60 millones de parámetros para cerrar la brecha entre las representaciones de audio generadas por el codificador de audio de Sarvam y las incrustaciones de texto de Llama. La capa de proyección permite la transformación perfecta de los datos de audio en un formato que Llama puede interpretar como texto.

Como los recursos de entrenamiento eran limitados, el equipo adoptó un enfoque frugal: ajustó solo la capa del proyector y dejó el resto de Llama y Saaras congelados, una estrategia que minimizó el uso de recursos.

“Habría sido muy difícil producir Shuka si Llama no hubiera estado disponible como software de código abierto”, afirma Kumar. “Pudimos centrarnos en la innovación en la capa de codificador y proyector de audio y construir de manera efectiva un modelo de audio-texto de última generación”.

El ajuste fino implicó entrenar el proyector en un conjunto de datos que abarcaba idiomas índicos, concentrándose en crear tokens de audio compatibles con el espacio de incrustación de Llama. Este enfoque requirió generar pares de preguntas y respuestas de alta calidad específicos para los conjuntos de datos de control de calidad de Sarvam, que luego se procesaron a través de Llama 3 para producir respuestas de referencia.

Shuka v1 logró un equilibrio entre precisión y eficiencia a través de un cuidadoso ajuste del proyector, lo que le permitió mantener la precisión de la respuesta lingüística sin requerir un reentrenamiento extenso de todo el modelo Llama.

A medida que Llama continúa evolucionando, Sarvam planea aprovechar versiones más nuevas para expandir las capacidades de Shuka, admitiendo potencialmente un conjunto más amplio de idiomas y conjuntos de datos de entrenamiento más grandes. Meta Blog. Traducido al español

Artículos relacionados

Scroll al inicio