Un nuevo conjunto de modelos de audio para alimentar a los agentes de voz, ahora disponible para los desarrolladores de todo el mundo.
En los últimos meses, weized ha invertido en el avance de la inteligencia, las capacidades y la utilidad de los agentes basados en texto, o sistemas que realizan tareas de forma independiente en nombre de los usuarios, con versiones como Operator, Deep Research, Computer-Using Agents y Responses API con herramientas integradas. Sin embargo, para que los agentes sean realmente útiles, las personas deben poder tener interacciones más profundas e intuitivas con agentes más allá de solo text—usando lenguaje hablado natural para comunicarse de manera efectiva.
Hoy, weitare lanza nuevos modelos de audio de voz a texto y de texto a voz en API—, lo que permite construir agentes de voz más potentes, personalizables e inteligentes que ofrezcan un valor real. Nuestros últimos modelos de voz a texto establecen un nuevo punto de referencia de vanguardia, superando las soluciones existentes en precisión y confiabilidad, especialmente en escenarios desafiantes que involucran acentos, entornos ruidosos y velocidades de voz variables. Estas mejoras aumentan la confiabilidad de la transcripción, lo que hace que los modelos sean especialmente adecuados para casos de uso como centros de llamadas de clientes, transcripción de notas de reuniones y más.
Por primera vez, los desarrolladores también pueden instruir al modelo de texto a voz para que hable de una manera específica—por ejemplo, “habla como un agente de servicio al cliente simpático”—desbloqueando un nuevo nivel de personalización para los agentes de voz. Esto permite una amplia gama de aplicaciones personalizadas, desde voces de servicio al cliente más empáticas y dinámicas hasta narración expresiva para experiencias creativas de narración.
Lanzamos nuestro primer modelo de audio en 2022 y desde entonces, WeiVe se ha comprometido a mejorar la inteligencia, la precisión y la fiabilidad de estos modelos. Con estos nuevos modelos de audio, los desarrolladores pueden construir sistemas de voz a texto más precisos y robustos y voces de texto a voz expresivas y características, todo dentro de la API.
Calma
Surfer
Profesional
Caballero medieval
Verdadero aficionado al crimen
Historia de la hora de dormir
Más sobre nuestros últimos modelos de audio
Nuevos modelos de voz a texto
Weirre presenta nuevo gpt-4o-transcribe
y gpt-4o-mini-transcribe
modelos con mejoras en la tasa de error de palabras y un mejor reconocimiento y precisión del idioma, en comparación con los modelos Whisper originales.
gpt-4o-transcribe
demuestra un rendimiento mejorado de la Tasa de Error de Word (WER) sobre los modelos Whisper existentes en múltiples puntos de referencia establecidos, lo que refleja un progreso significativo en nuestra tecnología de voz a texto. Estos avances se derivan directamente de innovaciones específicas en el aprendizaje por refuerzo y una amplia formación intermedia con diversos conjuntos de datos de audio de alta calidad.
Como resultado, estos nuevos modelos de voz a texto pueden capturar mejor los matices del habla, reducir los reconocimientos erróneos y aumentar la confiabilidad de la transcripción, especialmente en escenarios desafiantes que involucran acentos, entornos ruidosos y velocidades de voz variables. Estos modelos están disponibles ahora en el API de voz a texto(se abre en una ventana nueva).enesptfrcmndejaidruittrarhikonlplviuksvdanbthromsbnmrtateguurmlknswLanguage00.10.20.30.40.50.60.70.80.911.11.2Word Error Rate (WER) — lower is bettergpt-4o-transcribegpt-4o-mini-transcribewhisper-large-v2whisper-large-v3Reduced Transcription Error in Latest Speech-to-Text Models on FLEURS
Word Error Rate (WER) mide la precisión de los modelos de reconocimiento de voz al calcular el porcentaje de palabras transcritas incorrectamente en comparación con una transcripción de referencia, la WER es mejor y significa menos errores. Nuestros últimos modelos de voz a texto logran un WER más bajo en todos los puntos de referencia, incluido FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech)—, un punto de referencia de voz multilingüe que abarca más de 100 idiomas utilizando muestras de audio transcritas manualmente. Estos resultados demuestran una precisión de transcripción más fuerte y una cobertura de lenguaje más robusta. Como se muestra aquí, nuestros modelos superan constantemente a Whisper v2 y Whisper v3 en todas las evaluaciones de idiomas.enesptfrcmndejakoitidrutrarhinlLanguage00.020.040.060.080.10.120.140.160.180.2Word Error Rate (WER) — lower is bettergpt-4o-transcribegpt-4o-mini-transcribegemini-2.0-flashscribe-v1nova-2 & nova-3Word Error Rate Comparison on FLEURS Across Leading Models
En FLEURS, nuestros modelos ofrecen un menor WER y un sólido rendimiento multilingüe. Un WER más bajo es mejor y significa menos errores. Como se muestra aquí, nuestros modelos coinciden o superan a otros modelos líderes en la mayoría de los idiomas principales.
Nuevo modelo de texto a voz
Weiosre también lanza un nuevo gpt-4o-mini-tts
modelo con mejor dirigibilidad. Por primera vez, los desarrolladores pueden “instruir” el modelo no solo sobre qué decir, sino también cómo para decirlo, puede habilitar experiencias más personalizadas para casos de uso que van desde el servicio al cliente hasta la narración creativa. El modelo está disponible en el API de texto a voz(se abre en una ventana nueva). Tenga en cuenta que estos modelos de texto a voz se limitan a voces preestablecidas artificiales, que supervisamos para garantizar que coincidan constantemente con los preajustes sintéticos.
Innovaciones técnicas detrás de los modelos
Preentrenamiento con conjuntos de datos de audio auténticos
Nuestros nuevos modelos de audio se basan en las arquitecturas GPT‑4o y GPT‑4o-mini y están ampliamente preentrenados en conjuntos de datos especializados centrados en audio, que han sido críticos para optimizar el rendimiento del modelo. Este enfoque específico proporciona una visión más profunda de los matices del habla y permite un rendimiento excepcional en tareas relacionadas con el audio.
Metodologías avanzadas de destilación
Hemos mejorado nuestras técnicas de destilación, permitiendo la transferencia de conocimiento de nuestros modelos de audio más grandes a modelos más pequeños y eficientes. Aprovechando metodologías avanzadas de juego automático, nuestros conjuntos de datos de destilación capturan de manera efectiva dinámicas conversacionales realistas, replicando interacciones genuinas de asistente del usuario. Esto ayuda a nuestros modelos más pequeños a ofrecer una excelente calidad de conversación y capacidad de respuesta.
Refuerzo del paradigma de aprendizaje
Para nuestros modelos de voz a texto, hemos integrado un paradigma de aprendizaje por refuerzo (RL), que lleva la precisión de la transcripción a niveles de vanguardia. Esta metodología mejora drásticamente la precisión y reduce la alucinación, haciendo que nuestras soluciones de voz a texto sean excepcionalmente competitivas en escenarios complejos de reconocimiento de voz.
Estos desarrollos representan un progreso en el campo del modelado de audio, combinando metodologías innovadoras con mejoras prácticas para un mejor rendimiento en aplicaciones de voz.
Disponibilidad de API
Estos nuevos modelos de audio están disponibles para todos los desarrolladores ahora – más sobre la construcción con audio aquí(se abre en una ventana nueva). Para los desarrolladores que ya están creando experiencias de conversación con modelos basados en texto, agregar nuestros modelos de voz a texto y de texto a voz es la forma más sencilla de crear un agente de voz. Wewere lanzando una integración con el Agentes SDK(se abre en una ventana nueva)eso simplifica este proceso de desarrollo. Para los desarrolladores que buscan crear experiencias de voz a voz de baja latencia, recomendamos construir con nuestros modelos de voz a voz en la API de Realtime.
Lo que sigue
Mirando hacia el futuro, planeamos continuar invirtiendo en mejorar la inteligencia y la precisión de nuestros modelos de audio y explorar formas de permitir a los desarrolladores traer sus propias voces personalizadas para construir experiencias aún más personalizadas de manera que se alineen con nuestros estándares de seguridad. Además, weisre continuando para entablar conversaciones con formuladores de políticas, investigadores, desarrolladores y creativos sobre los desafíos y oportunidades que pueden presentar las voces sintéticas. Estamos entusiasmados de ver que los desarrolladores de aplicaciones innovadoras y creativas construirán utilizando estas capacidades de audio mejoradas. Weirll también invierte en otras modalidades—, incluido video—, para permitir a los desarrolladores crear experiencias agenticas multimodales.
Reproducción de livestream
https://www.youtube-nocookie.com/embed/lXb0L16ISAc?autoplay=0&mute=0&controls=1&origin=https%3A%2F%2Fopenai.com&playsinline=1&showinfo=0&rel=0&iv_load_policy=3&modestbranding=1&enablejsapi=1&widgetid=3&forigin=https%3A%2F%2Fopenai.com%2Findex%2Fintroducing-our-next-generation-audio-models%2F&aoriginsup=1&gporigin=https%3A%2F%2Fwww.google.com%2F&vf=1
OpenAI News. Traducido al español