El Portal de las Tecnologías para la Innovación

Anuncio de nuevos productos y características para Azure OpenAI Service, incluido GPT-4o-Realtime-Preview con capacidades de audio y voz

Nos complace anunciar la versión preliminar pública de GPT-4o-Realtime-Preview para audio y voz, una mejora importante del servicio Microsoft Azure OpenAI que agrega capacidades de voz avanzadas y amplía las ofertas multimodales de GPT-4o. Este hito consolida aún más el liderazgo de Azure en IA, especialmente en el ámbito de la tecnología de voz. El legado de Azure en este espacio se ha establecido desde hace mucho tiempo a través de su servicio de voz, que históricamente integraba voz a texto, texto a voz, voces neuronales y traducción en tiempo real en los principales productos de Microsoft, como Teams, Office 365 y Edge.

Ahora, GPT-4o-Realtime-Preview amplía aún más los límites al integrar la generación de lenguaje con una interacción de voz fluida, lo que brinda a los desarrolladores las herramientas que necesitan para crear experiencias de IA más naturales y conversacionales. Desde la creación de asistentes virtuales hasta la potenciación de la atención al cliente en tiempo real, este nuevo modelo abre una amplia gama de posibilidades para las aplicaciones basadas en voz. El nuevo modelo también está integrado con Copilot, como parte del nuevo producto Copilot Voice anunciado.

Basándose en los recientes anuncios de Azure OpenAI 

Este anuncio continúa una serie de actualizaciones importantes dentro de Azure OpenAI Service, que incluyen: 

  • Serie O1 : una nueva línea de modelos diseñados para el razonamiento avanzado sobre datos complejos. Nos complace poner la API a disposición de nuestros desarrolladores en Azure hoy después de una vista previa de dos semanas en Azure AI Studio Playground. 
  • Zonas de datos : habilitación de la residencia de datos regional para respaldar la privacidad y el cumplimiento del cliente. 
  • Implementaciones aprovisionadas ampliadas : ampliación de la disponibilidad a un SKU global para clientes que necesitan capacidad dedicada. 
  • Disponibilidad general de ajuste fino : permite adaptar los modelos GPT-4o y mini para casos de uso especializados. 
  • IA confiable : nuevas herramientas, incluidas evaluaciones en Azure AI Studio para respaldar evaluaciones de riesgos proactivas y marcas de agua en imágenes generadas por DALL*E. 
  • Solicitud de caché (próximamente): inferencia más barata y rápida a través del almacenamiento en caché en los modelos GPT-4o y o1. 

¿Qué novedades hay en GPT-4o-Realtime-Preview? 

API GPT-4o-Realtime : con esta versión, GPT-4o evoluciona para admitir la entrada y salida de audio, lo que permite interacciones naturales basadas en voz en tiempo real que van más allá de las conversaciones tradicionales de IA basadas en texto. Esta capacidad multimodal permite a los desarrolladores crear aplicaciones de voz innovadoras con facilidad. 

Área de acceso anticipado de Azure AI Studio : para los desarrolladores ansiosos por explorar, este espacio dedicado permite la experimentación temprana con las capacidades de la API GPT-4o-Realtime para audio. El estudio proporciona un entorno para probar, ajustar y optimizar las interacciones de voz antes de lanzarlas a entornos de producción.

Un rendimiento que habla por sí solo 

Los primeros clientes que utilizaron la API GPT-4o-Realtime para audio compartieron resultados notables que confirmaron su rendimiento e impacto: 

  • Respuestas más rápidas : GPT-4o-Realtime API for Audio proporciona respuestas de voz significativamente más rápidas que muchos motores de texto a voz tradicionales, lo que genera una latencia reducida e interacciones más fluidas. 
  • Conversaciones naturales : el modelo minimiza el tono robótico que a menudo se asocia con el habla generada por IA, lo que hace que las conversaciones suenen más atractivas. 
  • Soporte multilingüe : la API admite una amplia gama de idiomas, lo que permite conversaciones naturales y multilingües que pueden aplicarse a aplicaciones globales. 

Aplicaciones de GPT-4o-Realtime-Preview en el servicio Azure OpenAI 

El potencial de GPT-4o-Realtime-Preview se extiende a varias industrias, transformando el modo en que operan las empresas y el modo en que los usuarios interactúan con la tecnología: 

  • Atención al cliente : los chatbots basados ​​en voz y los asistentes virtuales ahora pueden gestionar las consultas de los clientes de forma más natural y eficiente, reduciendo los tiempos de espera y mejorando la satisfacción general. 
  • Creación de contenido : los productores de medios pueden revolucionar sus flujos de trabajo aprovechando la generación de voz para su uso en videojuegos, podcasts y estudios de cine. 
  • Traducción en tiempo real : industrias como la atención médica y los servicios legales pueden beneficiarse de la traducción de audio en tiempo real, rompiendo las barreras del idioma y fomentando una mejor comunicación en contextos críticos. 

Casos de uso que impulsan la innovación 

La versatilidad de GPT-4o-Realtime-Preview ya está transformando las operaciones en una variedad de sectores. A continuación, se muestran algunos de los primeros usuarios y cómo se benefician de esta tecnología: 

  • Bosch (Alemania) : Integración de la API GPT-4o-Realtime para audio para capacitación en realidad virtual en entornos automotrices, lo que permite a los consumidores y técnicos recibir instrucciones guiadas por voz.

“AOAI es una interfaz ideal para nuestra solución de ejecutivos de ventas virtuales HeyBosch, ya que es una solución que prioriza la conversación. Podemos integrar fácilmente AOAI a nuestra solución existente. Gracias por los ejemplos de referencia. El tiempo de respuesta del agente virtual ha mejorado sustancialmente, ya que ahora tenemos una única interfaz que combina ambos (voz y LLM). Esto ayuda a mantener la latencia al mínimo. Esta integración muestra el arte de la posibilidad de crear experiencias de usuario atractivas combinando GenAI, tecnología 3D y capacidades de procesamiento de voz en tiempo real”. — Vamsidhar Sunkari, experto sénior de Bosch Global Software Technologies Pvt Ltd. 

  • Lyrebird Health (Australia) : uso de GPT-4o-Realtime-Preview como copiloto médico, resumiendo la información del paciente y automatizando las tareas de seguimiento en tiempo real.

“ Lyrebird Health se complace en incorporar capacidades de audio a la relación entre proveedor y paciente. El nuevo modelo GPT-4o-realtime-preview nos permitirá experimentar y lanzar nuevas experiencias para nuestros clientes y usuarios finales. Esto nos ayudará en nuestra misión de proporcionar la mejor tecnología para personas del planeta”. —Kai Van Lieshout, cofundador y director ejecutivo de Lyrebird Health

  • Azure AI Search : VoiceRAG aprovecha el modelo de audio en tiempo real GPT-4o de Azure OpenAI y Azure AI Search para crear una aplicación de inteligencia artificial generativa basada en voz avanzada con Retrieval-Augmented Generation (RAG). El sistema integra la transmisión de audio en tiempo real y la llamada a funciones para realizar búsquedas en la base de conocimientos, lo que garantiza que las respuestas estén bien fundamentadas sin comprometer la latencia. Al gestionar de forma segura las configuraciones del modelo y los procesos de recuperación en el backend, VoiceRAG proporciona una interfaz natural y conversacional que incluye citas que se muestran sin problemas en la experiencia del usuario.

Nuestro compromiso con una IA confiable 

Azure se mantiene firme en su compromiso con la IA responsable , con la seguridad y la privacidad como prioridades predeterminadas. La API en tiempo real utiliza múltiples capas de medidas de seguridad, que incluyen supervisión automatizada y revisión humana, para evitar el uso indebido.

La API en tiempo real se ha sometido a rigurosas evaluaciones guiadas por nuestro compromiso con la IA responsable. Consulta el Informe de transparencia de IA responsable de 2024 .

Azure OpenAI Service proporciona funciones de seguridad de contenido integradas sin costo adicional, y Azure AI Studio ofrece herramientas para evaluar la seguridad de sus aplicaciones de IA, lo que garantiza una experiencia de IA segura y responsable.

¿Qué sigue con GPT-4o-Realtime API para audio?

A medida que continuamos innovando y ampliando las capacidades de GPT-4o-Realtime API for Audio, estamos entusiasmados de ver cómo los desarrolladores y las empresas aprovecharán esta tecnología de vanguardia para crear aplicaciones impulsadas por voz que amplíen los límites de lo posible. 

Ya sea que desee integrar capacidades de voz en sus operaciones de servicio al cliente o explorar las posibilidades de interacciones multilingües, GPT-4o-Realtime API for Audio brinda la flexibilidad y la potencia para transformar sus soluciones de IA. A partir de hoy, puede explorar estas nuevas capacidades en Azure OpenAI Studio , experimentar con ellas en Early Access Playground o integrar directamente la API en tiempo real en la versión preliminar pública en sus aplicaciones. Blog Microsoft. S.S.

Artículos relacionados

Scroll al inicio