Utilizando texto y audio como entradas, un nuevo modelo de IA generativa de NVIDIA puede crear cualquier combinación de música, voces y sonidos.
Un equipo de investigadores de IA generativa creó una navaja suiza para el sonido, que permite a los usuarios controlar la salida de audio simplemente usando texto.
Si bien algunos modelos de IA pueden componer una canción o modificar una voz, ninguno tiene la destreza de la nueva oferta.
Llamado Fugatto (abreviatura de Foundational Generative Audio Transformer Opus 1), genera o transforma cualquier mezcla de música, voces y sonidos descritos con indicaciones utilizando cualquier combinación de archivos de texto y audio.
Por ejemplo, puede crear un fragmento de música basado en un mensaje de texto, eliminar o agregar instrumentos de una canción existente, cambiar el acento o la emoción de una voz e incluso permitir que las personas produzcan sonidos nunca antes escuchados.
“Esto es una locura”, dijo Ido Zmishlany, productor y compositor multiplatino, y cofundador de One Take Audio , miembro del programa NVIDIA Inception para startups de vanguardia. “El sonido es mi inspiración. Es lo que me mueve a crear música. La idea de poder crear sonidos completamente nuevos sobre la marcha en el estudio es increíble”.
Una comprensión sólida del audio
“Queríamos crear un modelo que entienda y genere sonido como lo hacen los humanos”, dijo Rafael Valle, gerente de investigación de audio aplicado en NVIDIA y una de las más de una docena de personas detrás de Fugatto, además de director de orquesta y compositor.
Fugatto, que admite numerosas tareas de generación y transformación de audio, es el primer modelo de IA generativa fundamental que muestra propiedades emergentes (capacidades que surgen de la interacción de sus diversas habilidades entrenadas) y la capacidad de combinar instrucciones de formato libre.
“Fugatto es nuestro primer paso hacia un futuro en el que el aprendizaje multitarea no supervisado en la síntesis y transformación de audio surge a partir de la escala de datos y modelos”, afirmó Valle.
Una lista de reproducción de muestra de casos de uso
Por ejemplo, los productores musicales podrían usar Fugatto para crear rápidamente un prototipo o editar una idea para una canción, probando diferentes estilos, voces e instrumentos. También podrían agregar efectos y mejorar la calidad general del audio de una pista existente.
“La historia de la música también es la historia de la tecnología. La guitarra eléctrica le dio al mundo el rock and roll. Cuando apareció el sampler, nació el hip-hop”, dijo Zmishlany. “Con la IA, estamos escribiendo el próximo capítulo de la música. Tenemos un nuevo instrumento, una nueva herramienta para hacer música, y eso es súper emocionante”.
Una agencia de publicidad podría aplicar Fugatto para orientar rápidamente una campaña existente a múltiples regiones o situaciones, aplicando diferentes acentos y emociones a las voces en off.
Las herramientas de aprendizaje de idiomas se pueden personalizar para utilizar la voz que elija el hablante. Imagine un curso en línea hablado con la voz de cualquier familiar o amigo.
Los desarrolladores de videojuegos podrían usar el modelo para modificar los recursos pregrabados en su título para que se adapten a la acción cambiante a medida que los usuarios juegan el juego. O podrían crear nuevos recursos sobre la marcha a partir de instrucciones de texto y entradas de audio opcionales.
Haciendo un ruido alegre
“Una de las capacidades del modelo de la que estamos especialmente orgullosos es lo que llamamos la silla de aguacate”, dijo Valle, refiriéndose a una novedosa imagen creada por un modelo de IA generativa para imágenes.
Por ejemplo, Fugatto puede hacer que una trompeta ladre o un saxofón maúlle. El modelo puede crear todo lo que los usuarios puedan describir.
Con un ajuste fino y pequeñas cantidades de datos de canto, los investigadores descubrieron que podía manejar tareas para las que no estaba entrenado previamente, como generar una voz de canto de alta calidad a partir de una indicación de texto.
Los usuarios obtienen controles artísticos
Varias capacidades se suman a la novedad de Fugatto.
Durante la inferencia, el modelo utiliza una técnica llamada ComposableART para combinar instrucciones que solo se vieron por separado durante el entrenamiento. Por ejemplo, una combinación de indicaciones podría pedir un texto hablado con un sentimiento de tristeza y con acento francés.
La capacidad del modelo para interpolar entre instrucciones proporciona a los usuarios un control detallado sobre las instrucciones de texto, en este caso, la pesadez del acento o el grado de tristeza.
“Quería permitir a los usuarios combinar atributos de una manera subjetiva o artística, seleccionando cuánto énfasis pondrían en cada uno”, dijo Rohan Badlani, un investigador de IA que diseñó estos aspectos del modelo.
“En mis pruebas, los resultados fueron a menudo sorprendentes y me hicieron sentir un poco como un artista, a pesar de que soy un científico informático”, dijo Badlani, quien tiene una maestría en ciencias de la computación con especialización en IA de Stanford.
El modelo también genera sonidos que cambian con el tiempo, una característica que él llama interpolación temporal. Puede, por ejemplo, crear los sonidos de una tormenta que se desplaza por una zona con crescendos de truenos que se desvanecen lentamente en la distancia. También ofrece a los usuarios un control preciso sobre cómo evoluciona el paisaje sonoro.
Además, a diferencia de la mayoría de los modelos, que solo pueden recrear los datos de entrenamiento a los que han sido expuestos, Fugatto permite a los usuarios crear paisajes sonoros nunca antes vistos, como una tormenta eléctrica que se transforma en amanecer con el sonido de los pájaros cantando.
Una mirada bajo el capó
Fugatto es un modelo de transformador generativo fundamental que se basa en el trabajo previo del equipo en áreas como modelado de voz , vocodificación de audio y comprensión de audio .
La versión completa utiliza 2.5 mil millones de parámetros y se entrenó en un banco de sistemas NVIDIA DGX que incluyen 32 GPU NVIDIA H100 Tensor Core .
Fugatto fue creado por un grupo diverso de personas de todo el mundo, incluidos India, Brasil, China, Jordania y Corea del Sur. Su colaboración fortaleció las capacidades multilingües y de múltiples acentos de Fugatto.
Una de las partes más difíciles del trabajo fue generar un conjunto de datos combinados que contiene millones de muestras de audio utilizadas para el entrenamiento. El equipo empleó una estrategia multifacética para generar datos e instrucciones que ampliaron considerablemente el rango de tareas que el modelo podía realizar, al tiempo que lograban un rendimiento más preciso y permitían realizar nuevas tareas sin requerir datos adicionales.
También analizaron los conjuntos de datos existentes para descubrir nuevas relaciones entre ellos. El trabajo en general duró más de un año.
Valle recuerda dos momentos en los que el equipo supo que estaba en lo cierto. “La primera vez que generó música a partir de una indicación, nos dejó atónitos”, dijo.
Más tarde, el equipo hizo una demostración de Fugatto respondiendo a una indicación para crear música electrónica con perros ladrando al ritmo de la música.
“Cuando el grupo se disolvió entre risas, realmente me calentó el corazón”.
Escuche lo que Fugatto puede hacer:
nvidia News. R. K. Traducido al español