Anuncio de nuevos productos y características para Azure OpenAI Service, incluido GPT-4o-Realtime-Preview con capacidades de audio y voz
Nos complace anunciar la versión preliminar pública de GPT-4o-Realtime-Preview para audio y voz, una mejora importante del servicio Microsoft Azure OpenAI que agrega capacidades de voz avanzadas y amplía las ofertas multimodales de GPT-4o. Este hito consolida aún más el liderazgo de Azure en IA, especialmente en el ámbito de la tecnología de voz. El legado de Azure en este espacio se ha establecido desde hace mucho tiempo a través de su servicio de voz, que históricamente integraba voz a texto, texto a voz, voces neuronales y traducción en tiempo real en los principales productos de Microsoft, como Teams, Office 365 y Edge. Ahora, GPT-4o-Realtime-Preview amplía aún más los límites al integrar la generación de lenguaje con una interacción de voz fluida, lo que brinda a los desarrolladores las herramientas que necesitan para crear experiencias de IA más naturales y conversacionales. Desde la creación de asistentes virtuales hasta la potenciación de la atención al cliente en tiempo real, este nuevo modelo abre una amplia gama de posibilidades para las aplicaciones basadas en voz. El nuevo modelo también está integrado con Copilot, como parte del nuevo producto Copilot Voice anunciado. Basándose en los recientes anuncios de Azure OpenAI Este anuncio continúa una serie de actualizaciones importantes dentro de Azure OpenAI Service, que incluyen: ¿Qué novedades hay en GPT-4o-Realtime-Preview? API GPT-4o-Realtime : con esta versión, GPT-4o evoluciona para admitir la entrada y salida de audio, lo que permite interacciones naturales basadas en voz en tiempo real que van más allá de las conversaciones tradicionales de IA basadas en texto. Esta capacidad multimodal permite a los desarrolladores crear aplicaciones de voz innovadoras con facilidad. Área de acceso anticipado de Azure AI Studio : para los desarrolladores ansiosos por explorar, este espacio dedicado permite la experimentación temprana con las capacidades de la API GPT-4o-Realtime para audio. El estudio proporciona un entorno para probar, ajustar y optimizar las interacciones de voz antes de lanzarlas a entornos de producción. Un rendimiento que habla por sí solo Los primeros clientes que utilizaron la API GPT-4o-Realtime para audio compartieron resultados notables que confirmaron su rendimiento e impacto: Aplicaciones de GPT-4o-Realtime-Preview en el servicio Azure OpenAI El potencial de GPT-4o-Realtime-Preview se extiende a varias industrias, transformando el modo en que operan las empresas y el modo en que los usuarios interactúan con la tecnología: Casos de uso que impulsan la innovación La versatilidad de GPT-4o-Realtime-Preview ya está transformando las operaciones en una variedad de sectores. A continuación, se muestran algunos de los primeros usuarios y cómo se benefician de esta tecnología: “AOAI es una interfaz ideal para nuestra solución de ejecutivos de ventas virtuales HeyBosch, ya que es una solución que prioriza la conversación. Podemos integrar fácilmente AOAI a nuestra solución existente. Gracias por los ejemplos de referencia. El tiempo de respuesta del agente virtual ha mejorado sustancialmente, ya que ahora tenemos una única interfaz que combina ambos (voz y LLM). Esto ayuda a mantener la latencia al mínimo. Esta integración muestra el arte de la posibilidad de crear experiencias de usuario atractivas combinando GenAI, tecnología 3D y capacidades de procesamiento de voz en tiempo real”. — Vamsidhar Sunkari, experto sénior de Bosch Global Software Technologies Pvt Ltd. “ Lyrebird Health se complace en incorporar capacidades de audio a la relación entre proveedor y paciente. El nuevo modelo GPT-4o-realtime-preview nos permitirá experimentar y lanzar nuevas experiencias para nuestros clientes y usuarios finales. Esto nos ayudará en nuestra misión de proporcionar la mejor tecnología para personas del planeta”. —Kai Van Lieshout, cofundador y director ejecutivo de Lyrebird Health Nuestro compromiso con una IA confiable Azure se mantiene firme en su compromiso con la IA responsable , con la seguridad y la privacidad como prioridades predeterminadas. La API en tiempo real utiliza múltiples capas de medidas de seguridad, que incluyen supervisión automatizada y revisión humana, para evitar el uso indebido. La API en tiempo real se ha sometido a rigurosas evaluaciones guiadas por nuestro compromiso con la IA responsable. Consulta el Informe de transparencia de IA responsable de 2024 . Azure OpenAI Service proporciona funciones de seguridad de contenido integradas sin costo adicional, y Azure AI Studio ofrece herramientas para evaluar la seguridad de sus aplicaciones de IA, lo que garantiza una experiencia de IA segura y responsable. ¿Qué sigue con GPT-4o-Realtime API para audio? A medida que continuamos innovando y ampliando las capacidades de GPT-4o-Realtime API for Audio, estamos entusiasmados de ver cómo los desarrolladores y las empresas aprovecharán esta tecnología de vanguardia para crear aplicaciones impulsadas por voz que amplíen los límites de lo posible. Ya sea que desee integrar capacidades de voz en sus operaciones de servicio al cliente o explorar las posibilidades de interacciones multilingües, GPT-4o-Realtime API for Audio brinda la flexibilidad y la potencia para transformar sus soluciones de IA. A partir de hoy, puede explorar estas nuevas capacidades en Azure OpenAI Studio , experimentar con ellas en Early Access Playground o integrar directamente la API en tiempo real en la versión preliminar pública en sus aplicaciones. Blog Microsoft. S.S.