
Presentamos modelos de audio de próxima generación en la API
Un nuevo conjunto de modelos de audio para alimentar a los agentes de voz, ahora disponible para los desarrolladores de todo el mundo. En los últimos meses, weized ha invertido en el avance de la inteligencia, las capacidades y la utilidad de los agentes basados en texto, o sistemas que realizan tareas de forma independiente en nombre de los usuarios, con versiones como Operator, Deep Research, Computer-Using Agents y Responses API con herramientas integradas. Sin embargo, para que los agentes sean realmente útiles, las personas deben poder tener interacciones más profundas e intuitivas con agentes más allá de solo text—usando lenguaje hablado natural para comunicarse de manera efectiva. Hoy, weitare lanza nuevos modelos de audio de voz a texto y de texto a voz en API—, lo que permite construir agentes de voz más potentes, personalizables e inteligentes que ofrezcan un valor real. Nuestros últimos modelos de voz a texto establecen un nuevo punto de referencia de vanguardia, superando las soluciones existentes en precisión y confiabilidad, especialmente en escenarios desafiantes que involucran acentos, entornos ruidosos y velocidades de voz variables. Estas mejoras aumentan la confiabilidad de la transcripción, lo que hace que los modelos sean especialmente adecuados para casos de uso como centros de llamadas de clientes, transcripción de notas de reuniones y más. Por primera vez, los desarrolladores también pueden instruir al modelo de texto a voz para que hable de una manera específica—por ejemplo, “habla como un agente de servicio al cliente simpático”—desbloqueando un nuevo nivel de personalización para los agentes de voz. Esto permite una amplia gama de aplicaciones personalizadas, desde voces de servicio al cliente más empáticas y dinámicas hasta narración expresiva para experiencias creativas de narración. Lanzamos nuestro primer modelo de audio en 2022 y desde entonces, WeiVe se ha comprometido a mejorar la inteligencia, la precisión y la fiabilidad de estos modelos. Con estos nuevos modelos de audio, los desarrolladores pueden construir sistemas de voz a texto más precisos y robustos y voces de texto a voz expresivas y características, todo dentro de la API. Calma Surfer Profesional Caballero medieval Verdadero aficionado al crimen Historia de la hora de dormir Más sobre nuestros últimos modelos de audio Nuevos modelos de voz a texto Weirre presenta nuevo gpt-4o-transcribe y gpt-4o-mini-transcribe modelos con mejoras en la tasa de error de palabras y un mejor reconocimiento y precisión del idioma, en comparación con los modelos Whisper originales. gpt-4o-transcribedemuestra un rendimiento mejorado de la Tasa de Error de Word (WER) sobre los modelos Whisper existentes en múltiples puntos de referencia establecidos, lo que refleja un progreso significativo en nuestra tecnología de voz a texto. Estos avances se derivan directamente de innovaciones específicas en el aprendizaje por refuerzo y una amplia formación intermedia con diversos conjuntos de datos de audio de alta calidad. Como resultado, estos nuevos modelos de voz a texto pueden capturar mejor los matices del habla, reducir los reconocimientos erróneos y aumentar la confiabilidad de la transcripción, especialmente en escenarios desafiantes que involucran acentos, entornos ruidosos y velocidades de voz variables. Estos modelos están disponibles ahora en el API de voz a texto(se abre en una ventana nueva).enesptfrcmndejaidruittrarhikonlplviuksvdanbthromsbnmrtateguurmlknswLanguage00.10.20.30.40.50.60.70.80.911.11.2Word Error Rate (WER) — lower is bettergpt-4o-transcribegpt-4o-mini-transcribewhisper-large-v2whisper-large-v3Reduced Transcription Error in Latest Speech-to-Text Models on FLEURS Word Error Rate (WER) mide la precisión de los modelos de reconocimiento de voz al calcular el porcentaje de palabras transcritas incorrectamente en comparación con una transcripción de referencia, la WER es mejor y significa menos errores. Nuestros últimos modelos de voz a texto logran un WER más bajo en todos los puntos de referencia, incluido FLEURS (Few-shot Learning Evaluation of Universal Representations of Speech)—, un punto de referencia de voz multilingüe que abarca más de 100 idiomas utilizando muestras de audio transcritas manualmente. Estos resultados demuestran una precisión de transcripción más fuerte y una cobertura de lenguaje más robusta. Como se muestra aquí, nuestros modelos superan constantemente a Whisper v2 y Whisper v3 en todas las evaluaciones de idiomas.enesptfrcmndejakoitidrutrarhinlLanguage00.020.040.060.080.10.120.140.160.180.2Word Error Rate (WER) — lower is bettergpt-4o-transcribegpt-4o-mini-transcribegemini-2.0-flashscribe-v1nova-2 & nova-3Word Error Rate Comparison on FLEURS Across Leading Models En FLEURS, nuestros modelos ofrecen un menor WER y un sólido rendimiento multilingüe. Un WER más bajo es mejor y significa menos errores. Como se muestra aquí, nuestros modelos coinciden o superan a otros modelos líderes en la mayoría de los idiomas principales. Nuevo modelo de texto a voz Weiosre también lanza un nuevo gpt-4o-mini-tts modelo con mejor dirigibilidad. Por primera vez, los desarrolladores pueden “instruir” el modelo no solo sobre qué decir, sino también cómo para decirlo, puede habilitar experiencias más personalizadas para casos de uso que van desde el servicio al cliente hasta la narración creativa. El modelo está disponible en el API de texto a voz(se abre en una ventana nueva). Tenga en cuenta que estos modelos de texto a voz se limitan a voces preestablecidas artificiales, que supervisamos para garantizar que coincidan constantemente con los preajustes sintéticos. Innovaciones técnicas detrás de los modelos Preentrenamiento con conjuntos de datos de audio auténticos Nuestros nuevos modelos de audio se basan en las arquitecturas GPT‑4o y GPT‑4o-mini y están ampliamente preentrenados en conjuntos de datos especializados centrados en audio, que han sido críticos para optimizar el rendimiento del modelo. Este enfoque específico proporciona una visión más profunda de los matices del habla y permite un rendimiento excepcional en tareas relacionadas con el audio. Metodologías avanzadas de destilación Hemos mejorado nuestras técnicas de destilación, permitiendo la transferencia de conocimiento de nuestros modelos de audio más grandes a modelos más pequeños y eficientes. Aprovechando metodologías avanzadas de juego automático, nuestros conjuntos de datos de destilación capturan de manera efectiva dinámicas conversacionales realistas, replicando interacciones genuinas de asistente del usuario. Esto ayuda a nuestros modelos más pequeños a ofrecer una excelente calidad de conversación y capacidad de respuesta. Refuerzo del paradigma de aprendizaje Para nuestros modelos de voz a texto, hemos integrado un paradigma de aprendizaje por refuerzo (RL), que lleva la precisión de la transcripción a niveles de vanguardia. Esta metodología mejora drásticamente la precisión y reduce la alucinación, haciendo que nuestras soluciones de voz a texto sean