Presentamos modelos de audio de próxima generación en la API

Un nuevo conjunto de modelos de audio para alimentar a los agentes de voz, ahora disponible para los desarrolladores de todo el mundo.

En los últimos meses, weized ha invertido en el avance de la inteligencia, las capacidades y la utilidad de los agentes basados en texto, o sistemas que realizan tareas de forma independiente en nombre de los usuarios, con versiones como Operator, Deep Research, Computer-Using Agents y Responses API con herramientas integradas. Sin embargo, para que los agentes sean realmente útiles, las personas deben poder tener interacciones más profundas e intuitivas con agentes más allá de solo text—usando lenguaje hablado natural para comunicarse de manera efectiva.

Hoy, weitare lanza nuevos modelos de audio de voz a texto y de texto a voz en API—, lo que permite construir agentes de voz más potentes, personalizables e inteligentes que ofrezcan un valor real. Nuestros últimos modelos de voz a texto establecen un nuevo punto de referencia de vanguardia, superando las soluciones existentes en precisión y confiabilidad, especialmente en escenarios desafiantes que involucran acentos, entornos ruidosos y velocidades de voz variables. Estas mejoras aumentan la confiabilidad de la transcripción, lo que hace que los modelos sean especialmente adecuados para casos de uso como centros de llamadas de clientes, transcripción de notas de reuniones y más.

Por primera vez, los desarrolladores también pueden instruir al modelo de texto a voz para que hable de una manera específica—por ejemplo, “habla como un agente de servicio al cliente simpático”—desbloqueando un nuevo nivel de personalización para los agentes de voz. Esto permite una amplia gama de aplicaciones personalizadas, desde voces de servicio al cliente más empáticas y dinámicas hasta narración expresiva para experiencias creativas de narración.

Lanzamos nuestro primer modelo de audio en 2022 y desde entonces, WeiVe se ha comprometido a mejorar la inteligencia, la precisión y la fiabilidad de estos modelos. Con estos nuevos modelos de audio, los desarrolladores pueden construir sistemas de voz a texto más precisos y robustos y voces de texto a voz expresivas y características, todo dentro de la API.

Calma

Surfer

Profesional

Caballero medieval

Verdadero aficionado al crimen

Historia de la hora de dormir

Más sobre nuestros últimos modelos de audio

Nuevos modelos de voz a texto

Weirre presenta nuevo gpt-4o-transcribe y gpt-4o-mini-transcribe modelos con mejoras en la tasa de error de palabras y un mejor reconocimiento y precisión del idioma, en comparación con los modelos Whisper originales.

gpt-4o-transcribedemuestra un rendimiento mejorado de la Tasa de Error de Word (WER) sobre los modelos Whisper existentes en múltiples puntos de referencia establecidos, lo que refleja un progreso significativo en nuestra tecnología de voz a texto. Estos avances se derivan directamente de innovaciones específicas en el aprendizaje por refuerzo y una amplia formación intermedia con diversos conjuntos de datos de audio de alta calidad.

Como resultado, estos nuevos modelos de voz a texto pueden capturar mejor los matices del habla, reducir los reconocimientos erróneos y aumentar la confiabilidad de la transcripción, especialmente en escenarios desafiantes que involucran acentos, entornos ruidosos y velocidades de voz variables. Estos modelos están disponibles ahora en el API de voz a texto(se abre en una ventana nueva).enesptfrcmndejaidruittrarhikonlplviuksvdanbthromsbnmrtateguurmlknswLanguage00.10.20.30.40.50.60.70.80.911.11.2Word Error Rate (WER) — lower is bettergpt-4o-transcribegpt-4o-mini-transcribewhisper-large-v2whisper-large-v3Reduced Transcription Error in Latest Speech-to-Text Models on FLEURS

Word Error Rate (WER) mide la precisión de los modelos de reconocimiento de voz al calcular el porcentaje de palabras transcritas incorrectamente en comparación con una transcripción de referencia, la WER es mejor y significa menos errores. Nuestros últimos modelos de voz a texto logran un WER más bajo en todos los puntos de referencia, incluido FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech)—, un punto de referencia de voz multilingüe que abarca más de 100 idiomas utilizando muestras de audio transcritas manualmente. Estos resultados demuestran una precisión de transcripción más fuerte y una cobertura de lenguaje más robusta. Como se muestra aquí, nuestros modelos superan constantemente a Whisper v2 y Whisper v3 en todas las evaluaciones de idiomas.enesptfrcmndejakoitidrutrarhinlLanguage00.020.040.060.080.10.120.140.160.180.2Word Error Rate (WER) — lower is bettergpt-4o-transcribegpt-4o-mini-transcribegemini-2.0-flashscribe-v1nova-2 & nova-3Word Error Rate Comparison on FLEURS Across Leading Models

En FLEURS, nuestros modelos ofrecen un menor WER y un sólido rendimiento multilingüe. Un WER más bajo es mejor y significa menos errores. Como se muestra aquí, nuestros modelos coinciden o superan a otros modelos líderes en la mayoría de los idiomas principales.

Nuevo modelo de texto a voz

Weiosre también lanza un nuevo gpt-4o-mini-tts modelo con mejor dirigibilidad. Por primera vez, los desarrolladores pueden “instruir” el modelo no solo sobre qué decir, sino también cómo para decirlo, puede habilitar experiencias más personalizadas para casos de uso que van desde el servicio al cliente hasta la narración creativa. El modelo está disponible en el API de texto a voz(se abre en una ventana nueva). Tenga en cuenta que estos modelos de texto a voz se limitan a voces preestablecidas artificiales, que supervisamos para garantizar que coincidan constantemente con los preajustes sintéticos.

Innovaciones técnicas detrás de los modelos

Preentrenamiento con conjuntos de datos de audio auténticos

Nuestros nuevos modelos de audio se basan en las arquitecturas GPT‑4o y GPT‑4o-mini y están ampliamente preentrenados en conjuntos de datos especializados centrados en audio, que han sido críticos para optimizar el rendimiento del modelo. Este enfoque específico proporciona una visión más profunda de los matices del habla y permite un rendimiento excepcional en tareas relacionadas con el audio.

Metodologías avanzadas de destilación

Hemos mejorado nuestras técnicas de destilación, permitiendo la transferencia de conocimiento de nuestros modelos de audio más grandes a modelos más pequeños y eficientes. Aprovechando metodologías avanzadas de juego automático, nuestros conjuntos de datos de destilación capturan de manera efectiva dinámicas conversacionales realistas, replicando interacciones genuinas de asistente del usuario. Esto ayuda a nuestros modelos más pequeños a ofrecer una excelente calidad de conversación y capacidad de respuesta.

Refuerzo del paradigma de aprendizaje

Para nuestros modelos de voz a texto, hemos integrado un paradigma de aprendizaje por refuerzo (RL), que lleva la precisión de la transcripción a niveles de vanguardia. Esta metodología mejora drásticamente la precisión y reduce la alucinación, haciendo que nuestras soluciones de voz a texto sean excepcionalmente competitivas en escenarios complejos de reconocimiento de voz.

Estos desarrollos representan un progreso en el campo del modelado de audio, combinando metodologías innovadoras con mejoras prácticas para un mejor rendimiento en aplicaciones de voz.

Disponibilidad de API

Estos nuevos modelos de audio están disponibles para todos los desarrolladores ahora – más sobre la construcción con audio aquí(se abre en una ventana nueva). Para los desarrolladores que ya están creando experiencias de conversación con modelos basados en texto, agregar nuestros modelos de voz a texto y de texto a voz es la forma más sencilla de crear un agente de voz. Wewere lanzando una integración con el Agentes SDK(se abre en una ventana nueva)eso simplifica este proceso de desarrollo. Para los desarrolladores que buscan crear experiencias de voz a voz de baja latencia, recomendamos construir con nuestros modelos de voz a voz en la API de Realtime.

Lo que sigue

Mirando hacia el futuro, planeamos continuar invirtiendo en mejorar la inteligencia y la precisión de nuestros modelos de audio y explorar formas de permitir a los desarrolladores traer sus propias voces personalizadas para construir experiencias aún más personalizadas de manera que se alineen con nuestros estándares de seguridad. Además, weisre continuando para entablar conversaciones con formuladores de políticas, investigadores, desarrolladores y creativos sobre los desafíos y oportunidades que pueden presentar las voces sintéticas. Estamos entusiasmados de ver que los desarrolladores de aplicaciones innovadoras y creativas construirán utilizando estas capacidades de audio mejoradas. Weirll también invierte en otras modalidades—, incluido video—, para permitir a los desarrolladores crear experiencias agenticas multimodales.

Reproducción de livestream

https://www.youtube-nocookie.com/embed/lXb0L16ISAc?autoplay=0&mute=0&controls=1&origin=https%3A%2F%2Fopenai.com&playsinline=1&showinfo=0&rel=0&iv_load_policy=3&modestbranding=1&enablejsapi=1&widgetid=3&forigin=https%3A%2F%2Fopenai.com%2Findex%2Fintroducing-our-next-generation-audio-models%2F&aoriginsup=1&gporigin=https%3A%2F%2Fwww.google.com%2F&vf=1

OpenAI News. Traducido al español

El Portal de las Tecnologías para la Innovación

Presentamos modelos de audio de próxima generación en la API

Más sobre nuestros últimos modelos de audio

Nuevos modelos de voz a texto

Nuevo modelo de texto a voz

Innovaciones técnicas detrás de los modelos

Preentrenamiento con conjuntos de datos de audio auténticos

Metodologías avanzadas de destilación

Refuerzo del paradigma de aprendizaje

Disponibilidad de API

Lo que sigue

Reproducción de livestream

Buscá noticias

Seleccioná una categoría

Newsletter

Artículos relacionados

IBM adquiere Hakkoda Inc., Expandiendo Experiencia en Datos para Impulsar las Transformaciones de IA de los Clientes

Sustainability Accelerator showcases 18 innovations to tackle greenhouse gas removal

El portal de
las tecnologías
para la innovación

Contacto

Presentamos modelos de audio de próxima generación en la API

Más sobre nuestros últimos modelos de audio

Nuevos modelos de voz a texto

Nuevo modelo de texto a voz

Innovaciones técnicas detrás de los modelos

Preentrenamiento con conjuntos de datos de audio auténticos

Metodologías avanzadas de destilación

Refuerzo del paradigma de aprendizaje

Disponibilidad de API

Lo que sigue

Reproducción de livestream

Buscá noticias

Seleccioná una categoría

Newsletter

Artículos relacionados

IBM adquiere Hakkoda Inc., Expandiendo Experiencia en Datos para Impulsar las Transformaciones de IA de los Clientes

Sustainability Accelerator showcases 18 innovations to tackle greenhouse gas removal

El portal de las tecnologías para la innovación

Contacto

El portal de
las tecnologías
para la innovación