Presentamos las actualizaciones de gpt-realtime y Realtime API para agentes de voz de producción

Fuente: OpenAI

Estamos lanzando un modelo de voz a voz más avanzado y nuevas capacidades de API que incluyen compatibilidad con servidor MCP, entrada de imágenes y compatibilidad con llamadas telefónicas SIP.

También lanzamos nuestro modelo de voz a voz más avanzado hasta la fecha gpt-realtime: . Este nuevo modelo muestra mejoras en el seguimiento de instrucciones complejas, la precisión en la llamada a herramientas y la producción de un habla con un sonido más natural y expresivo. Interpreta mejor los mensajes del sistema y las indicaciones para desarrolladores, ya sea leyendo scripts de descargo de responsabilidad palabra por palabra en una llamada de soporte, repitiendo caracteres alfanuméricos o cambiando de idioma sin problemas a mitad de frase. También lanzamos dos nuevas voces, Cedar y Marin, disponibles exclusivamente en la API en tiempo real a partir de hoy.

Desde que presentamos la API en tiempo real en su versión beta pública el pasado octubre, miles de desarrolladores la han utilizado y han contribuido a dar forma a las mejoras que lanzamos hoy, optimizadas para ofrecer fiabilidad, baja latencia y alta calidad para implementar con éxito agentes de voz en producción. A diferencia de los canales tradicionales que encadenan múltiples modelos de conversión de voz a texto y de texto a voz, la API en tiempo real procesa y genera audio directamente a través de un único modelo y API. Esto reduce la latencia, conserva los matices del habla y produce respuestas más naturales y expresivas.ZillowT-MobileStubHubSalud OscarLimonada

00:00 00:27

El nuevo modelo de voz a voz de la API en tiempo real de OpenAI muestra un razonamiento más sólido y un habla más natural, lo que le permite gestionar solicitudes complejas de varios pasos, como filtrar anuncios según las necesidades de estilo de vida o guiar las conversaciones sobre asequibilidad con herramientas como nuestra puntuación de BuyAbility. Esto podría hacer que buscar una casa en Zillow o explorar opciones de financiación se sienta tan natural como una conversación con un amigo, lo que ayuda a simplificar decisiones como comprar, vender y alquilar una vivienda.

– Josh Weisberg, director de IA en Zillow

Presentamos gpt-realtime

El nuevo modelo de voz a voz gpt-realtimees nuestro modelo de voz más avanzado y listo para producción. Lo entrenamos en estrecha colaboración con los clientes para que sobresaliera en tareas prácticas como atención al cliente, asistencia personal y formación, adaptándolo a la forma en que los desarrolladores crean e implementan agentes de voz. El modelo muestra mejoras en la calidad del audio, la inteligencia, el seguimiento de instrucciones y la llamada a funciones.

Calidad de audio

Una conversación con un sonido natural es fundamental para implementar agentes de voz en el mundo real. Los modelos deben hablar con la entonación, la emoción y el ritmo de un humano para crear una experiencia agradable y fomentar una conversación continua con los usuarios. Nos capacitamos gpt-realtimepara producir un habla de mayor calidad que suena más natural y que puede seguir instrucciones precisas, como «habla rápido y profesionalmente» o «habla con empatía y acento francés».

Lanzamos dos nuevas voces en la API, Marin y Cedar, con mejoras significativas en el habla natural. También actualizamos nuestras ocho voces existentes para aprovechar estas mejoras.

Muestra de voz – Marin

Muestra de voz – Cedar

Inteligencia y comprensión

gpt-realtimeDemuestra mayor inteligencia y puede comprender audio nativo con mayor precisión. El modelo puede captar señales no verbales (como risas), cambiar de idioma a mitad de frase y adaptar el tono («rápido y profesional» vs. «amable y empático»). Según evaluaciones internas, el modelo también muestra un rendimiento más preciso al detectar secuencias alfanuméricas (como números de teléfono, VIN, etc.) en otros idiomas, como español, chino, japonés y francés. En la evaluación Big Bench Audio, que mide la capacidad de razonamiento, gpt-realtimeobtiene una precisión del 82,8 %, superando a nuestro modelo anterior de diciembre de 2024, que obtuvo un 65,6 %.gpt-realtimegpt-4o-realtime-preview-2025-06-03gpt-4o-realtime-preview-2024-12-17Accuracy82.8%81.5%65.6%Big Bench AudioIntelligence

El audio del Big Bench(se abre en una nueva ventana)Benchmark es un conjunto de datos de evaluación para evaluar la capacidad de razonamiento de los modelos de lenguaje compatibles con audio. Este conjunto de datos adapta las preguntas de Big Bench Hard, seleccionadas por su rigurosa evaluación del razonamiento avanzado, al ámbito del audio.

Instrucciones siguientes

Al crear una aplicación de voz a voz, los desarrolladores dan instrucciones al modelo sobre cómo comportarse, incluyendo cómo hablar, qué decir en una situación determinada y qué hacer o no hacer. Hemos centrado nuestras mejoras en el seguimiento de estas instrucciones, de modo que incluso las instrucciones más pequeñas tengan mayor impacto en el modelo. En la prueba de referencia de audio MultiChallenge, que mide la precisión en el seguimiento de instrucciones, obtuvo una gpt-realtimepuntuación del 30,5 %, una mejora significativa con respecto a nuestro modelo anterior de diciembre de 2024, que obtuvo una puntuación del 20,6 %.gpt-realtimegpt-4o-realtime-preview-2025-06-03gpt-4o-realtime-preview-2024-12-17Accuracy30.5%26.5%20.6%MultiChallenge (Audio)Instruction Following

Multidesafío ⁠(se abre en una nueva ventana)Evalúa la eficacia de los LLM en conversaciones multi-turno con humanos. Se centra en cuatro categorías de desafíos realistas con los que los modelos de vanguardia actuales tienen dificultades. Estos desafíos requieren que los modelos combinen simultáneamente el seguimiento de instrucciones, la gestión del contexto y el razonamiento contextual. Convertimos un subconjunto de preguntas de la prueba de texto a voz, compatibles con audio, para crear una versión en audio de esta evaluación.

Llamada de función

Para crear un agente de voz eficaz con un modelo de conversión de voz a voz, este debe poder llamar a las herramientas adecuadas en el momento oportuno para que sea útil en producción. Hemos mejorado la invocación de funciones en tres aspectos: invocar funciones relevantes, invocar funciones en el momento oportuno y invocar funciones con los argumentos adecuados (lo que se traduce en una mayor precisión). En la evaluación de audio de ComplexFuncBench, que mide el rendimiento de las invocaciones de funciones, gpt-realtimese obtiene una puntuación del 66,5 %, mientras que nuestro modelo anterior, de diciembre de 2024, obtuvo una puntuación del 49,7 %.

También hemos realizado mejoras en las llamadas de funciones asincrónicas .(se abre en una nueva ventana)Las llamadas a funciones de larga duración ya no interrumpirán el flujo de una sesión: el modelo puede continuar una conversación fluida mientras espera los resultados. Esta función está disponible de forma nativa en [nombre del modelo] gpt-realtime, por lo que los desarrolladores no necesitan actualizar su código.gpt-realtimegpt-4o-realtime-preview-2025-06-03gpt-4o-realtime-preview-2024-12-17Accuracy66.5%58.9%49.7%ComplexFuncBench AudioFunction Calling

Banco de funciones complejas(se abre en una nueva ventana)Mide la eficacia de los modelos para gestionar tareas complejas de llamada a funciones. Evalúa el rendimiento en escenarios como llamadas de varios pasos, razonamiento sobre restricciones o parámetros implícitos y gestión de entradas muy largas. Convertimos las indicaciones de texto originales en voz para crear esta evaluación para nuestro modelo.

Novedades en la API en tiempo real

Soporte de servidor MCP remoto

Puede habilitar la compatibilidad con MCP en una sesión de API en tiempo real pasando la URL de un servidor MCP remoto a la configuración de la sesión. Una vez conectada, la API gestiona automáticamente las llamadas a la herramienta, por lo que no es necesario configurar las integraciones manualmente.

Esta configuración facilita la ampliación de su agente con nuevas funciones: simplemente apunte la sesión a un servidor MCP diferente y esas herramientas estarán disponibles de inmediato. Para obtener más información sobre cómo configurar MCP con Realtime, consulte esta guía .(se abre en una nueva ventana).

JavaScript

1// POST /v1/realtime/client_secrets2{3"session": {4"type": "realtime",5"tools": [6      {7"type": "mcp",8"server_label": "stripe",9"server_url": "https://mcp.stripe.com",10"authorization": "{access_token}",11"require_approval": "never"12      }13    ]14  }15}16

Entrada de imagen

Con la compatibilidad con entradas de imagen en [nombre del usuario] gpt-realtime, puedes agregar imágenes, fotos y capturas de pantalla junto con audio o texto a una sesión de la API en tiempo real. Ahora, el modelo puede basar la conversación en lo que el usuario realmente ve, lo que permite que los usuarios hagan preguntas como «¿qué ves?» o «¿lees el texto de esta captura de pantalla?».

En lugar de tratar una imagen como una transmisión de video en vivo, el sistema la trata como si se añadiera una foto a la conversación. Tu aplicación puede decidir qué imágenes compartir con el modelo y cuándo hacerlo. De esta forma, controlas lo que ve el modelo y cuándo responde.

Consulta nuestra documentación(se abre en una nueva ventana)para comenzar con la entrada de imágenes.

JavaScript

1{2"type": "conversation.item.create",3"previous_item_id": null,4"item": {5"type": "message",6"role": "user",7"content": [8            {9"type": "input_image",10"image_url": "data:image/{format(example: png)};base64,{some_base64_image_bytes}"11            }12        ]13    }14}15

Capacidades adicionales

Hemos agregado varias otras características para que la API en tiempo real sea más fácil de integrar y más flexible para su uso en producción.

Compatibilidad con el Protocolo de Iniciación de Sesión (SIP): Conecte sus aplicaciones a la red telefónica pública, sistemas PBX, teléfonos de escritorio y otros terminales SIP con compatibilidad directa con la API en tiempo real. Más información en la documentación .(se abre en una nueva ventana)
Avisos reutilizables: Ahora puedes guardar y reutilizar avisos (que incluyen mensajes de desarrollador, herramientas, variables y ejemplos de mensajes de usuario/asistente) en sesiones de la API en tiempo real, como en la API de respuestas. Obtén más información en la documentación .(se abre en una nueva ventana)

Seguridad y privacidad

La API en tiempo real incorpora múltiples capas de protección y mitigaciones para ayudar a prevenir el uso indebido. Puede obtener más información sobre nuestro enfoque de seguridad y los detalles de la tarjeta del sistema en el blog del anuncio de la versión beta . Empleamos clasificadores activos en las sesiones de la API en tiempo real, lo que significa que ciertas conversaciones pueden detenerse si se detecta que infringen nuestras directrices sobre contenido dañino. Los desarrolladores también pueden agregar fácilmente sus propias medidas de seguridad adicionales mediante el SDK de Agentes .(se abre en una nueva ventana).

Nuestras políticas de uso prohíben la reutilización o distribución de los resultados de nuestros servicios con fines de spam, engaño u otros fines perjudiciales. Los desarrolladores también deben aclarar a los usuarios finales cuándo interactúan con la IA, a menos que el contexto lo indique claramente. La API en tiempo real utiliza voces predefinidas para evitar que actores maliciosos se hagan pasar por otros.

La API en tiempo real es totalmente compatible con la residencia de datos en la UE .(se abre en una nueva ventana)para aplicaciones con sede en la UE y está cubierto por nuestros compromisos de privacidad empresarial .

Precios y disponibilidad

La API en tiempo real y el nuevo gpt-realtimemodelo, disponibles para todos los desarrolladores, están disponibles desde hoy. Reducimos los precios gpt-realtimeun 20 % en comparación con los precios de gpt-4o-realtime-preview$32 por 1 millón de tokens de entrada de audio ($0.40 por tokens de entrada en caché) y $64 por 1 millón de tokens de salida de audio (consulta los precios detallados ).(se abre en una nueva ventana)). También hemos agregado un control detallado del contexto de la conversación para permitir a los desarrolladores establecer límites de tokens inteligentes y truncar múltiples turnos a la vez, lo que reduce significativamente el costo de las sesiones largas.

Para comenzar, visita nuestra documentación de API en tiempo real .(se abre en una nueva ventana), prueba el nuevo modelo en el Playground ⁠(se abre en una nueva ventana)y consulte nuestra guía de solicitudes de API en tiempo real(se abre en una nueva ventana).

Repetición de transmisión en vivo

OpenAI News. Traducido al español

El Portal de las Tecnologías para la Innovación

Presentamos las actualizaciones de gpt-realtime y Realtime API para agentes de voz de producción

Fuente: OpenAI

Presentamos gpt-realtime

Calidad de audio

Inteligencia y comprensión

Instrucciones siguientes

Llamada de función

Novedades en la API en tiempo real

Soporte de servidor MCP remoto

JavaScript

Entrada de imagen

JavaScript

Capacidades adicionales

Seguridad y privacidad

Precios y disponibilidad

Repetición de transmisión en vivo

Buscá noticias

Seleccioná una categoría

Artículos relacionados

Broadcom lanza la plataforma unificada Wi-Fi 8 para experiencias de IA fluidas en los hogares

Presentamos ChatGPT Salud

Contacto