El mundo del audio espacial está en constante evolución con las nuevas tecnologías emergentes que pueden ofrecer experiencias de sonido más inmersivas y realistas.
Uno de los desafíos clave en este campo es Codificación ambisonics, una técnica utilizada para capturar y reproducir sonido desde múltiples direcciones.
Ingrese a nuestra última innovación; En colaboración con la Universidad de Tampere, presentamos una nueva tecnología que transforma la captura y el procesamiento de audio inmersivo, para ofrecer un rendimiento de audio espacial mejorado y al mismo tiempo reducir significativamente los costos de desarrollo. Esto no solo desbloqueará nuevas posibilidades para la grabación de audio espacial, sino que acelerará la adopción de experiencias inmersivas avanzadas para los dispositivos actuales.
El desafío de la captura de audio espacial moderna
Grabar audio espacial siempre ha sido un proceso rígido. Los métodos de codificación existentes basados en el aprendizaje automático a menudo luchan por capturar con precisión toda la gama de frecuencias, lo que lleva a una experiencia de sonido distorsionada y poco realista. Incluso las últimas soluciones de captura de audio AI requieren capacitación específica para cada configuración de matriz de micrófonos, lo que las hace inflexibles y requieren mucho tiempo.
Estos inconvenientes han creado una barrera significativa para la adopción generalizada de la tecnología de audio espacial, particularmente en aplicaciones emergentes como la realidad virtual y las telecomunicaciones inmersivas.
Creación de un traductor universal para audio espacial
Para superar estas limitaciones, hemos desarrollado un nuevo método basado en red neuronal profunda (DNN) para codificación Ambisonics. Nuestra solución, la primera de su tipo, automáticamente se adapta a diferentes disposiciones de matriz de micrófonos, sin requerir reentrenamiento. Piense en ello como un traductor universal para el sistema de audio—one espacial que puede funcionar con prácticamente cualquier configuración de micrófono.
Diseño U-Net
La clave de nuestro enfoque radica en una arquitectura U-Net, un sistema dual único que procesa tanto la disposición física o la geometría del micrófono como las señales de audio que capturan.
Los componentes clave de systemics incluyen:
- Un codificador de geometría que entiende el diseño físico de los micrófonos
- Un procesador de señal que maneja los datos de audio reales
Al aprender la relación entre la geometría del micrófono y las señales de audio, nuestra red neuronal mantiene el procesamiento de audio de alta calidad en diferentes configuraciones de micrófono y se adapta a diferentes arreglos sin necesidad de volver a entrenar. Algo que ha sido bastante desafiante para las soluciones basadas en DNN.
Rendimiento del mundo real
Poner a prueba nuestra solución DNN reveló resultados impresionantes en entornos controlados y pudimos superar los métodos tradicionales de captura en precisión y manejo de información de audio espacial. Nuestra tecnología sobresale en condiciones anecoicas, (entornos acústicos libres de eco) que brindan resultados de alta calidad en una variedad de arreglos de micrófonos. Y si bien hay desafíos en entornos reverberantes, (piense en salas de eco-pesado) nuestro sistema aún supera a los métodos convencionales para mantener un rendimiento constante en todas las frecuencias.
Implicaciones de la industria
Este avance tiene implicaciones de gran alcance para industrias como la realidad virtual y aumentada, donde puede permitir experiencias más inmersivas con captura de audio flexible. Las telecomunicaciones también pueden beneficiarse de una mejor calidad de audio en las videoconferencias, mientras que los dispositivos móviles de hoy en día también pueden aprovechar el hardware existente para mejorar la captura de audio espacial.
De cara al futuro, vemos un mayor desarrollo centrado en mejorar el rendimiento en condiciones reverberantes y mejorar el manejo de múltiples fuentes de sonido, allanando el camino para aplicaciones aún más impactantes en el futuro.
Un cambio fundamental en la grabación de audio espacial
Este desarrollo no es solo otra mejora técnica, sino que ofrece un cambio fundamental en la forma en que podemos abordar la grabación de audio espacial. La capacidad de usar un sistema en diferentes configuraciones de micrófono podría reducir significativamente los costos de desarrollo y la complejidad al tiempo que mejora la calidad del audio.
Para los consumidores, esto podría significar mejores experiencias de audio inmersivas en sus dispositivos. También podría abrir nuevas posibilidades para aplicaciones 5G Advanced Immersive Voice and Audio Services (IVAS), permitiendo que el proceso de codificación de audio espacial se adapte fácilmente a nuevos dispositivos. Para los desarrolladores y creadores de contenido, ofrece más flexibilidad en las opciones de hardware sin comprometer la calidad de audio. Para la industria en su conjunto, representa un paso hacia soluciones de audio espacial más estandarizadas y accesibles.
Nuestro trabajo demuestra que la IA puede resolver los desafíos de ingeniería de audio del mundo real de maneras novedosas, abriendo puertas para la innovación en la tecnología de audio espacial. A medida que la realidad virtual y aumentada continúe evolucionando, tales avances en el procesamiento de audio serán cada vez más cruciales para crear experiencias verdaderamente inmersivas.
Esta investigación representa no solo un logro técnico, sino una solución práctica a un desafío de larga data en el procesamiento de audio espacial, allanando el camino para tecnologías de audio inmersivas más flexibles y accesibles. NOKIA Blog. K.D. Traducido al español