
Cree Aplicaciones XR Multimodales en Tiempo Real con NVIDIA AI Blueprint para Búsqueda de Vídeo y Resumir
Con los recientes avances en IA generativa y los modelos fundamentales de visión, los VLM presentan una nueva ola de computación visual en la que los modelos son capaces de una percepción altamente sofisticada y una comprensión contextual profunda. Estas soluciones inteligentes ofrecen un medio prometedor para mejorar la comprensión semántica en entornos XR. Al integrar VLM, los desarrolladores pueden mejorar significativamente la forma en que las aplicaciones XR interpretan e interactúan con las acciones de los usuarios, haciéndolas más receptivas e intuitivas. Esta publicación lo guía sobre cómo aprovechar el NVIDIA AI Blueprint para búsqueda de vídeo y resumen y mejorarlo para admitir audio en un entorno XR. Explicamos el proceso paso a paso, desde la configuración del entorno hasta la integración perfecta, para el reconocimiento de voz en tiempo real y las interacciones inmersivas. Avanzando aplicaciones XR con agentes de IA multimodales Aumentar las aplicaciones XR con funcionalidades conversacionales de IA crea una experiencia más inmersiva para los usuarios. Creando generativo Agentes de IA que ofrecen capacidades de preguntas y respuestas dentro del entorno XR, los usuarios pueden interactuar de forma más natural y recibir asistencia inmediata. Un agente de IA multimodal procesa y sintetiza múltiples modos de entrada, como datos visuales (XR feeds de auriculares, por ejemplo), voz, texto o flujos de sensores, para tomar decisiones conscientes del contexto y generar respuestas naturales e interactivas. Los casos de uso en los que esta integración puede tener un impacto sustancial son: Al integrar VLM e incorporar características como una comprensión semántica mejorada y capacidades de IA conversacional, los desarrolladores pueden ampliar los posibles casos de uso de las aplicaciones XR. NVIDIA AI Blueprint para búsqueda de vídeo y resumen Uno de los desafíos clave para aprovechar los VLM para aplicaciones XR radica en procesar videos largos o transmisiones en tiempo real mientras captura efectivamente el contexto temporal. El NVIDIA AI Blueprint para búsqueda de vídeo y resumen aborda este desafío al permitir que los VLM manejen duraciones de video extendidas y transmisiones de video en tiempo real. El Plan de IA para la búsqueda y el resumen de videos ayuda a simplificar el desarrollo de agentes de IA de análisis de video. Estos agentes facilitan el análisis de video integral aprovechando un VLM y un LLM. El VLM genera subtítulos detallados para los segmentos de video, que luego se almacenan en una base de datos vectorial. El LLM resume estos subtítulos para generar una respuesta final a las consultas de los usuarios. Para obtener más detalles sobre este agente y sus capacidades, consulte Construya un Agente de Búsqueda y Resumen de Video con NVIDIA AI Blueprint. El diseño flexible de este Plan de IA permite a los usuarios adaptar el flujo de trabajo y adaptarse a diferentes entornos. Para adaptar el plano para el caso de uso específico de un agente de realidad virtual (VR), el primer paso es garantizar un flujo continuo de datos VR en la tubería. Por ejemplo, puede usar FFmpeg para capturar el entorno VR directamente desde la pantalla de los auriculares VR. Para que el agente sea interactivo, nuestro equipo priorizó la habilitación de la comunicación de voz. ¿Qué mejor manera de interactuar con un agente de VR que hablando con él? Existen múltiples formas de incorporar la comprensión visual y de audio en entornos XR. En este tutorial, modificamos el plano de IA para incorporar el procesamiento de audio segmentando audio y video a intervalos consistentes, guardándolos como archivos .mpg y .wav. Los archivos de vídeo (.mpg) son procesados por el VLM, mientras que los archivos de audio (.wav) son enviados a NVIDIA Riva NIM ASR a través de una llamada API para la transcripción. API Riva ASR NIM proporcione un fácil acceso a modelos de reconocimiento automático de voz (ASR) de última generación para múltiples idiomas. El texto transcrito se envía al VLM junto con el vídeo correspondiente. El Plan de IA para la búsqueda y el resumen de videos puede comprender videos largos o transmisiones en vivo. Sin embargo, en el caso de este agente, solo es necesario comprender partes del video cuando un usuario hace una pregunta. La tubería comprueba la presencia de una transcripción de audio. Si una transcripción está disponible, se invoca el VLM. De lo contrario, la tubería espera la entrada de audio en lugar de procesar continuamente todos los cuadros de video. Una vez que se detecta una transcripción, la tubería procede con las llamadas VLM y modelo de lenguaje grande (LLM) y la respuesta generada se convierte de nuevo a audio utilizando el modelo Riva NIM text-to-speech (TTS), que luego se devuelve al usuario. La figura 1 muestra las etapas detalladas de este proceso. Paso 1: Creación del entorno VR Para comenzar, conecte Meta Quest 3 a través de la aplicación de escritorio Oculus Link. Una vez que el auricular esté conectado, simule un entorno en VR. Omniverso NVIDIA es una plataforma para desarrollar aplicaciones OpenUSD enfocadas en la digitalización industrial y la simulación física de IA. Isaac Sim NVIDIA sirve como una aplicación de referencia basada en Omniverse, destinada al diseño, simulación, prueba y entrenamiento de robots basados en IA y máquinas autónomas en un entorno virtual físicamente preciso. Este tutorial utiliza el Cortex simulación de apilamiento de Bin UR10 de las simulaciones preconstruidas de Isaac Sim. Con la simulación en ejecución, la siguiente tarea es conectar Isaac Sim a la Búsqueda. Esto se logra habilitando un conjunto de complementos Create XR ofrecidos por NVIDIA dentro de Isaac Sim. Los plugins activados son los siguientes: Una vez que estos complementos estén activados, haga clic en el botón Iniciar Modo VR usando OpenXR para ingresar al entorno VR. A continuación, configure el flujo RTSP en el sistema Windows para capturar el entorno VR siguiendo estos pasos: Ejecute el siguiente comando para configurar FFmpeg para capturar tanto la pantalla como el micrófono. ffmpeg -f gdigrab -framerate 10-i desktop -f dshow -i audio=»Microphone (Realtek(R) Audio)» -vf scale=640:480-c:v h264_nvenc -preset fast -b:v 1M-maxrate 1M-bufsize 2M-rtbufsize 100M-c:a aac -ac 1-b:a 16k-map0:v -map1:a -f rtsp -rtsp_transport tcp rtsp://localhost:8554/stream Ejecute el siguiente comando para configurar FFmpeg para la captura