Presentamos OpenAI o1, mejoras de API en tiempo real, un nuevo método de ajuste y más para desarrolladores.
Hoy presentamos modelos más capaces, nuevas herramientas de personalización y actualizaciones que mejoran el rendimiento, la flexibilidad y la rentabilidad para los desarrolladores que crean con IA. Esto incluye:
- OpenAI o1 en la API (se abre en una nueva ventana), con soporte para llamadas de funciones, mensajes de desarrollador, salidas estructuradas y capacidades de visión.
- Actualizaciones de API en tiempo real(se abre en una nueva ventana), incluida una integración sencilla de WebRTC, una reducción de precio del 60 % para audio GPT-4o y soporte para GPT-4o mini a una décima parte de las velocidades de audio anteriores.
- Ajuste fino de preferencias(se abre en una nueva ventana), una nueva técnica de personalización de modelos que facilita la adaptación de modelos según las preferencias del usuario y del desarrollador.
- Nuevos SDK de Go y Java(se abre en una nueva ventana)Disponible en versión beta.
OpenAI o1 en la API
OpenAI o1 ,nuestro modelo de razonamiento diseñado para manejar tareas complejas de varios pasos con precisión avanzada, se está implementando para los desarrolladores en el nivel de uso 5 .(se abre en una nueva ventana)en la API. o1 es el sucesor de OpenAI o1-preview , que los desarrolladores ya han utilizado para crear aplicaciones de agentes para agilizar la atención al cliente, optimizar las decisiones de la cadena de suministro y pronosticar tendencias financieras complejas.
o1 está listo para producción con características clave para permitir casos de uso en el mundo real, que incluyen:
- Llamada de función(se abre en una nueva ventana):Conecte sin problemas o1 a datos externos y API.
- Salidas estructuradas(se abre en una nueva ventana):Genere respuestas que se adhieran de manera confiable a su esquema JSON personalizado.
- Mensajes para desarrolladores : especifica instrucciones o contexto que debe seguir el modelo, como definir el tono, el estilo y otras pautas de comportamiento.
- Capacidades de visión : razone sobre imágenes para desbloquear muchas más aplicaciones en ciencia, fabricación o codificación, donde las entradas visuales son importantes.
- Menor latencia : o1 utiliza en promedio un 60 % menos de tokens de razonamiento que o1-preview para una solicitud determinada.
- Un nuevo parámetro API ` reasoning_effort ` le permite controlar cuánto tiempo piensa el modelo antes de responder.
La instantánea de o1 que estamos enviando hoy o1-2024-12-17
es una nueva versión entrenada posteriormente del modelo que lanzamos en ChatGPT hace dos semanas. Mejora áreas del comportamiento del modelo en función de los comentarios, al mismo tiempo que mantiene las capacidades de vanguardia que evaluamos en nuestra tarjeta del sistema o1. También actualizaremos o1 en ChatGPT a esta versión pronto. Las evaluaciones que compartimos a continuación reflejan el rendimiento de esta nueva instantánea, lo que garantiza que los desarrolladores tengan puntos de referencia actualizados para esta versión.
o1-2024-12-17
Establece nuevos resultados de última generación en varios puntos de referencia, mejorando la relación coste-eficiencia y el rendimiento.
Categoría | Evaluar | o1-2024-12-17 | o1-vista previa |
---|---|---|---|
General | Diamante GPQA | 75,7 | 73.3 |
MMLU (pase @1) | 91.8 | 90.8 | |
Codificación | Banco SWE verificado | 48.9 | 41.3 |
LiveBench (codificación) | 76.6 | 52.3 | |
Matemáticas | MATEMÁTICAS (aprueba @1) | 96.4 | 85,5 |
AIME 2024 (aprobado @1) | 79.2 | 42.0 | |
MGSM (pase @1) | 89.3 | 90.8 | |
Visión | MMMU (pase @1) | 77.3 | — |
MathVista (aprobado @1) | 71.0 | — | |
Factibilidad | Control de calidad simple | 42.6 | 42.4 |
Agentes | Banco TAU (venta minorista) | 73.5 | — |
Banco TAU (aerolínea) | 54.2 | — |
Precisión de la evaluación del modelo en diferentes métricas
gpt-4o-2024-11-20o1-vista previao1-2024-12-17o1 con SOinternal-structured-outputsinternal-function-callinginternal-function-calling-and-structured-outputslivebench-codingAIME 2022-20240.00.10.20.30.40.50.60.70.80.91.0Accuracy
Además, hemos observado que o1-2024-12-17
supera significativamente a gpt-4o en nuestras pruebas de llamadas de funciones y salidas estructuradas.
Estamos implementando el acceso de forma gradual mientras trabajamos para ampliar el acceso a niveles de uso adicionales y aumentar los límites de velocidad. Para comenzar, consulte la documentación de la API .(se abre en una nueva ventana).
Mejoras en la API en tiempo real
La API en tiempo real(se abre en una nueva ventana)Permite a los desarrolladores crear experiencias de conversación naturales y de baja latencia. Es ideal para asistentes de voz, herramientas de traducción en vivo, tutores virtuales, sistemas de atención al cliente interactivos o incluso para tu propio Papá Noel virtual .(se abre en una nueva ventana)Hoy lanzamos cambios para abordar algunas de las solicitudes más comunes de los desarrolladores: una integración directa con WebRTC, precios reducidos y más control sobre las respuestas.
Compatibilidad con WebRTC
Presentamos WebRTC(se abre en una nueva ventana)Compatibilidad con la API en tiempo real. WebRTC es un estándar abierto que facilita la creación y el escalado de productos de voz en tiempo real en distintas plataformas, ya sea para aplicaciones basadas en navegador, clientes móviles, dispositivos IoT o configuraciones directas de servidor a servidor.
Nuestra integración con WebRTC está diseñada para permitir interacciones fluidas y con capacidad de respuesta en condiciones reales, incluso con calidad de red variable. Se encarga de la codificación de audio, la transmisión, la supresión de ruido y el control de la congestión.
Con WebRTC, ahora puedes agregar capacidades en tiempo real con solo unas pocas líneas de Javascript:
JavaScript
123456789101112
1
asyncfunctioncreateRealtimeSession(localStream, remoteAudioEl, token) {
2
const pc = newRTCPeerConnection();
3
pc.ontrack = e => remoteAudioEl.srcObject = e.streams[0];
4
pc.addTrack(localStream.getTracks()[0]);
5
const offer = await pc.createOffer();
6
await pc.setLocalDescription(offer);
7
const headers = { Authorization: `Bearer ${token}`, 'Content-Type': 'application/sdp' };
8
const opts = { method: 'POST', body: offer.sdp, headers };
9
const resp = awaitfetch('https://api.openai.com/v1/realtime', opts);
10
await pc.setRemoteDescription({ type: 'answer', sdp: await resp.text() });
11
return pc;
12
}
Obtenga más información sobre nuestra integración WebRTC en la documentación de la API .(se abre en una nueva ventana).
Nuevas instantáneas en tiempo real GPT-4o y GPT-4o mini a menor costo
Estamos lanzando gpt-4o-realtime-preview-2024-12-17
como parte de la versión beta de la API en tiempo real una calidad de voz mejorada, una entrada más confiable (especialmente para números dictados) y costos reducidos. Debido a nuestras mejoras de eficiencia, estamos reduciendo el precio del token de audio en un 60 % a $40/1 millón de tokens de entrada y $80/1 millón de tokens de salida. Los costos de entrada de audio en caché se reducen en un 87,5 % a $2,50/1 millón de tokens de entrada.
También incorporaremos GPT-4o mini a la versión beta de la API en tiempo real como gpt-4o-mini-realtime-preview-2024-12-17
. GPT-4o mini es nuestro modelo pequeño más rentable y ofrece las mismas experiencias de voz enriquecidas a la API en tiempo real que GPT-4o. El precio del audio de GPT-4o mini es de $10/1 millón de tokens de entrada y $20/1 millón de tokens de salida. Los tokens de texto tienen un precio de $0,60/1 millón de tokens de entrada y $2,40/1 millón de tokens de salida. Tanto el audio como el texto en caché cuestan $0,30/1 millón de tokens.
Estas instantáneas están disponibles en la API en tiempo real .(se abre en una nueva ventana)y también en la API de Finalizaciones de Chat(se abre en una nueva ventana)como gpt-4o-audio-preview-2024-12-17
y gpt-4o-mini-audio-preview-2024-12-17
.
Más control sobre las respuestas
Estamos incorporando las siguientes funciones a la API en tiempo real para facilitar la entrega de experiencias excepcionales impulsadas por voz:
- Respuestas concurrentes fuera de banda(se abre en una nueva ventana)para permitir que tareas en segundo plano, como moderación o clasificación de contenido, se ejecuten sin interrumpir la interacción de voz del usuario.
- Contexto de entrada personalizado(se abre en una nueva ventana)para especificar qué elementos de conversación se incluirán como entrada del modelo. Por ejemplo, ejecutar una comprobación de moderación solo en la última expresión del usuario o reutilizar una respuesta anterior sin alterar permanentemente el estado de la sesión.
- Tiempo de respuesta controlado(se abre en una nueva ventana) para utilizar la detección de actividad de voz (VAD) del lado del servidor sin activar automáticamente una respuesta. Por ejemplo, recopilar datos necesarios, como detalles de la cuenta, y agregarlos al contexto del modelo antes de iniciar manualmente una respuesta de voz, lo que ofrece más control sobre el tiempo y la precisión.
- Aumento de la duración máxima de la sesión(se abre en una nueva ventana)de 15 a 30 min.
Ajuste fino de preferencias
La API de ajuste fino ahora admite el ajuste fino de preferencias(se abre en una nueva ventana)para facilitar la personalización de modelos según las preferencias de los usuarios y desarrolladores. Este método utiliza la optimización de preferencias directas (DPO )(se abre en una nueva ventana)Comparar pares de respuestas del modelo, enseñándole al modelo a distinguir entre resultados preferidos y no preferidos. Al aprender de comparaciones por pares en lugar de objetivos fijos, el ajuste fino de preferencias es especialmente eficaz para tareas subjetivas en las que el tono, el estilo y la creatividad son importantes.
Existen algunas diferencias clave entre el ajuste fino de preferencias y el ajuste fino supervisado, como se muestra a continuación.
Ajuste fino supervisado (SFT) | Ajuste fino de preferencias (PFT) | |
---|---|---|
Objetivo | Fomente que el modelo genere resultados correctos replicando los resultados etiquetados | Optimizar el modelo para favorecer el comportamiento deseado reforzando las respuestas preferidas y reduciendo la probabilidad de las no preferidas. |
Datos de entrenamiento | Pares de entrada y salida exactos | Pares de resultados de modelos preferidos y no preferidos, mediante anotación humana, pruebas A/B o generación de datos sintéticos |
Casos de uso | Tareas en las que es fácil preparar un resultado ideal, como un formato de código personalizado, y se necesita una corrección estricta | Eficaz para tareas en las que las respuestas “mejores” son subjetivas, como la escritura creativa o el resumen. |
Comenzamos a probar el ajuste fino de preferencias con socios de confianza que han obtenido resultados prometedores hasta ahora. Por ejemplo, Rogo AI (se abre en una nueva ventana)está creando un asistente de IA para analistas financieros que descompone consultas complejas en subconsultas. Utilizando su punto de referencia creado por expertos, Rogo-Golden, descubrieron que, si bien el ajuste fino supervisado enfrentaba desafíos con la expansión de consultas fuera de distribución (como métricas faltantes como ARR para consultas como «qué tan rápido está creciendo la empresa X»), el ajuste fino de preferencias resolvió estos problemas, mejorando el rendimiento del 75 % de precisión en el modelo base a más del 80 %.
El ajuste fino de preferencias se implementará hoy gpt-4o-2024-08-06
y estará disponible gpt-4o-mini-2024-07-18
pronto. Estará disponible al mismo precio por token entrenado que el ajuste fino supervisado, y será compatible con nuestros modelos más nuevos a principios del próximo año. Para obtener más información, visita nuestra guía de ajuste fino .(se abre en una nueva ventana)en la documentación de la API.
SDK de Go y Java en versión beta
Por último, presentamos dos nuevos SDK oficiales para Go .(se abre en una nueva ventana)y Java(se abre en una nueva ventana)en versión beta, además de nuestras bibliotecas oficiales existentes de Python, Node.js y .NET(se abre en una nueva ventana)Nuestro objetivo es que las API de OpenAI sean fáciles de usar, sin importar el lenguaje de programación que elija.
Go es un lenguaje de tipado estático ideal para gestionar la concurrencia y crear API escalables y sistemas backend. El SDK de Go de OpenAI facilita la interacción con los modelos de OpenAI en su código Go.
Ir
123456789101112131415
1
client := openai.NewClient()
2
ctx := context.Background()
3
prompt := "Write me a haiku about Golang."
4
5
completion, err := client.Chat.Completions.New(
6
ctx,
7
openai.ChatCompletionNewParams{
8
Messages: openai.F(
9
[]openai.ChatCompletionMessageParamUnion{
10
openai.UserMessage(prompt),
11
},
12
),
13
Model: openai.F(openai.ChatModelGPT4o),
14
},
15
)
Para obtener más información sobre el SDK de Go, consulte el archivo README en GitHub .(se abre en una nueva ventana).
Java ha sido un elemento básico del desarrollo de software empresarial, favorecido por su sistema de tipos y su enorme ecosistema de bibliotecas de código abierto. El SDK de Java de OpenAI proporciona objetos de solicitud y respuesta tipificados y utilidades útiles para gestionar solicitudes de API.
Java
123456789101112131415161718192021
1
OpenAIClient client = OpenAIOkHttpClient.fromEnv();
2
3
ChatCompletionCreateParams params = ChatCompletionCreateParams
4
.builder()
5
.message(List.of(
6
ChatCompletionMessageParam.ofChatCompletionUserMessageParam(
7
ChatCompletionUserMessageParam
8
.builder()
9
.role(ChatCompletionUserMessageParam.Role.USER)
10
.content(
11
ChatCompletionUserMessageParam.Content.ofTextContent(
12
"What is the origin of Java's Duke mascot?"
13
)
14
)
15
.build()
16
)
17
))
18
.model(ChatModel.O1_PREVIEW)
19
.build();
20
21
ChatCompletion chatCompletion = client.chat().completions().create(params);
Para obtener más información sobre el SDK de Java, consulte el archivo README en GitHub .(se abre en una nueva ventana).
Conclusión
Estamos ansiosos por ver lo que creará con estas actualizaciones, ya sean nuevas aplicaciones de voz, modelos optimizados o aplicaciones de agentes que amplían los límites de lo posible. Consulte las guías detalladas para o1(se abre en una nueva ventana), API en tiempo real(se abre en una nueva ventana), Integración WebRTC (se abre en una nueva ventana), y ajuste fino de preferencias(se abre en una nueva ventana)en nuestra documentación de API para profundizar y comenzar a experimentar hoy mismo. OpenAI News. Traducido al español