El Portal de las Tecnologías para la Innovación

Nuevas herramientas y funciones en la API de respuestas

Presentamos soporte para servidor MCP remoto, generación de imágenes, intérprete de código y más en la API de respuestas para desarrolladores y empresas.

Hoy añadimos nuevas herramientas integradas a la API de Respuestas, nuestra API principal para crear aplicaciones con agentes. Esto incluye compatibilidad con todos los servidores remotos del Protocolo de Contexto de Modelo (MCP) .(se abre en una nueva ventana), así como herramientas como la generación de imágenes .(se abre en una nueva ventana)Intérprete de código(se abre en una nueva ventana), y mejoras en la búsqueda de archivos(se abre en una nueva ventana)Estas herramientas están disponibles en nuestros modelos de razonamiento de las series GPT‑4o y GPT‑4.1, así como en la serie o de OpenAI. o3 y o4-mini ahora pueden invocar herramientas y funciones directamente dentro de su cadena de pensamiento en la API de Respuestas, lo que genera respuestas más contextualmente ricas y relevantes. El uso de o3 y o4-mini con la API de Respuestas preserva los tokens de razonamiento en las solicitudes y llamadas a herramientas, lo que mejora la inteligencia del modelo y reduce el coste y la latencia para los desarrolladores.

También incorporamos nuevas funciones en la API de Respuestas que mejoran la fiabilidad, la visibilidad y la privacidad para empresas y desarrolladores. Estas incluyen el modo en segundo plano .(se abre en una nueva ventana)Para gestionar tareas de larga duración de forma asincrónica y más confiable, se admite el uso de resúmenes de razonamiento .(se abre en una nueva ventana), y soporte para elementos de razonamiento encriptados(se abre en una nueva ventana)

Desde el lanzamiento de la API de Respuestas en marzo de 2025, con herramientas como la búsqueda web, la búsqueda de archivos y el uso de computadoras, cientos de miles de desarrolladores la han utilizado para procesar billones de tokens en nuestros modelos. Nuestros clientes la han utilizado para crear diversas aplicaciones de agentes, incluyendo Zencoder .(se abre en una nueva ventana)El agente de codificación de Revi(se abre en una nueva ventana)Agente de inteligencia de mercado para capital privado y banca de inversión, y MagicSchool AI(se abre en una nueva ventana)El asistente educativo de [nombre del usuario], que utiliza la búsqueda web para extraer información relevante y actualizada a su aplicación. Ahora, los desarrolladores pueden crear agentes aún más útiles y fiables con acceso a las nuevas herramientas y funciones lanzadas hoy.

Nuevo soporte para servidor MCP remoto

Estamos agregando soporte para servidores MCP remotos(se abre en una nueva ventana)en la API de respuestas, basándose en el lanzamiento de la compatibilidad con MCP en el SDK de agentes .(se abre en una nueva ventana)MCP es un protocolo abierto que estandariza cómo las aplicaciones proporcionan contexto a los LLM. Al ser compatibles con servidores MCP en la API de Responses, los desarrolladores podrán conectar nuestros modelos a herramientas alojadas en cualquier servidor MCP con solo unas pocas líneas de código. A continuación, se muestran algunos ejemplos que muestran cómo los desarrolladores pueden usar servidores MCP remotos con la API de Responses hoy mismo:ShopifyTwilioRayaDeepWiki (Devin)

Pitón

1response = client.responses.create(2  model="gpt-4.1",3  tools=[{4"type": "mcp",5"server_label": "shopify",6"server_url": "https://pitchskin.com/api/mcp",7  }],8input="Add the Blemish Toner Pads to my cart"9)

¡Las almohadillas tónicas para imperfecciones se han añadido a tu carrito! Puedes proceder al pago aquí:

Presentación. Página de pago de Skin con opciones exprés (Shop Pay, PayPal, G Pay), formularios de contacto y entrega, y un resumen del pedido de un "Blemish Toner Pads 200 mL (120 pads)" con un precio de AUD $49.

Pitón

1response = client.responses.create(2  model="gpt-4o",3  tools=[4    { "type": "web_search_preview" },5    {6"type": "mcp",7"server_label": "twilio",8"server_url": "https://<function-domain>.twil.io/mcp",9"headers": { "x-twilio-signature": "..." }10    }11  ],12input="Get the latest soccer news and text a short summary to +1 555 555 5555"13)

Encontré las últimas noticias de fútbol, ​​las resumí y envié un mensaje de texto con la actualización al +1 555 555 5555.

El chat de mensajes de iPhone titulado 'Noticias de fútbol' muestra una única burbuja gris con titulares: 'Transferencias abiertas; Los Spurs buscan su primer trofeo en la Europa League; El Bayern podría vender a Boey; Reus rescata a LA Galaxy en el sorteo de El Tráfico.

Pitón

1response = client.responses.create(2  model="o3",3  tools=[4    {5"type": "mcp",6"server_label": "stripe",7"server_url": "https://mcp.stripe.com",8"headers": { "Authorization": "Bearer <api-key>" }9    }10  ],11input="user_291471 used 700 minutes of storage at $0.30/minute. Generate a payment link for this."12)

Aquí está el enlace de pago para el uso de almacenamiento del usuario_29471 (700 minutos a $0.30/min, total $210). Puedes compartir este enlace con el usuario para el pago.

Pago en Hypernian: cargo por almacenamiento de $210 con opciones de pago con Link, tarjeta o Cash App y un botón "Pagar".

Pitón

1response = client.responses.create(2  model="gpt-4.1-mini",3  tools=[{4"type": "mcp",5"server_label": "deepwiki",6"server_url": "https://mcp.deepwiki.com/mcp"7  }],8input="give me 5 interesting facts on modelcontextprotocol/python-sdk -- keep it short!"9)

Aquí hay 5 datos interesantes sobre modelcontextprotocol/python-sdk:

1. El SDK de MCP implementa una arquitectura cliente-servidor estandarizada para exponer el contexto a modelos de lenguaje grandes (LLM) utilizando protocolos y transportes bien definidos como SSE, WebSocket y STDIO.

2. Proporciona dos implementaciones de servidor principales: FastMCP (de alto nivel con API basada en decorador) y un servidor de bajo nivel para un control de protocolo completo.

3. MCP define tres primitivos principales: Recursos (exposición de datos), Herramientas (funciones) y Avisos (plantillas interactivas).

4. El SDK incluye extracción y validación automática de metadatos de funciones mediante modelos de Pydantic, lo que garantiza llamadas de funciones robustas y fuertemente tipadas.

5. Durante la inicialización, los servidores MCP declaran capacidades como suscripción de recursos y gestión de indicaciones, lo que permite a los clientes adaptarse dinámicamente para la seguridad y la negociación de funciones.

Los servidores MCP remotos populares incluyen Cloudflare(se abre en una nueva ventana)HubSpot​(se abre en una nueva ventana)Intercomunicador​(se abre en una nueva ventana)PayPal ⁠(se abre en una nueva ventana)Cuadros​(se abre en una nueva ventana)Shopify​(se abre en una nueva ventana)Raya​(se abre en una nueva ventana)Cuadrado ⁠(se abre en una nueva ventana)Twilio ⁠(se abre en una nueva ventana)Zapier​(se abre en una nueva ventana)Y más. Prevemos que el ecosistema de servidores MCP remotos crecerá rápidamente en los próximos meses, lo que facilitará a los desarrolladores la creación de agentes potentes que se conecten a las herramientas y fuentes de datos que sus usuarios ya utilizan. Para brindar el mejor soporte al ecosistema y contribuir a este estándar en desarrollo, OpenAI también se ha unido al comité directivo de MCP.

Para aprender a crear su propio servidor MCP remoto, consulte esta guía de Cloudflare .(se abre en una nueva ventana)Para aprender a usar la herramienta MCP en la API de Respuestas, consulta esta guía .(se abre en una nueva ventana)en nuestro libro de recetas de API.

Actualizaciones en la generación de imágenes, el intérprete de código y la búsqueda de archivos

Con las herramientas integradas en la API de Respuestas, los desarrolladores pueden crear fácilmente agentes más eficaces con una sola llamada a la API. Al llamar a múltiples herramientas durante el razonamiento, los modelos ahora alcanzan un rendimiento de llamada a herramientas significativamente mayor en pruebas de referencia estándar del sector, como Humanity’s Last Exam ( fuente ). Hoy añadimos nuevas herramientas, entre ellas:

  • Generación de imágenes: Además de utilizar la API de imágenes(se abre en una nueva ventana)Los desarrolladores ahora pueden acceder a nuestro último modelo de generación de imágenes como gpt-image-1una herramienta dentro de la API de Respuestas. Esta herramienta admite la transmisión en tiempo real, lo que permite a los desarrolladores ver vistas previas de la imagen a medida que se genera, y la edición multi-turno, lo que permite a los desarrolladores indicar al modelo que refine estas imágenes paso a paso. Más información .(se abre en una nueva ventana).
  • Intérprete de código: los desarrolladores ahora pueden usar el Intérprete de código(se abre en una nueva ventana)Herramienta dentro de la API de Respuestas. Esta herramienta es útil para el análisis de datos, la resolución de problemas matemáticos y de codificación complejos, y ayuda a los modelos a comprender y manipular imágenes en profundidad (p. ej., pensar con imágenes ). La capacidad de modelos como o3 y o4-mini para usar la herramienta Intérprete de Código en su cadena de pensamiento ha mejorado el rendimiento en varias pruebas de referencia, incluyendo el Último Examen de la Humanidad ( fuente ). Más información .(se abre en una nueva ventana).
  • Búsqueda de archivos: los desarrolladores ahora pueden acceder a la búsqueda de archivos .(se abre en una nueva ventana)Herramienta en nuestros modelos de razonamiento. La búsqueda de archivos permite a los desarrolladores extraer fragmentos relevantes de sus documentos al contexto del modelo según la consulta del usuario. También estamos implementando actualizaciones en la herramienta de búsqueda de archivos que permiten a los desarrolladores realizar búsquedas en múltiples almacenes de vectores y admiten el filtrado de atributos con matrices. Más información .(se abre en una nueva ventana).

Nuevas funciones en la API de respuestas

Además de las nuevas herramientas, también estamos agregando soporte para nuevas funciones en la API de respuestas, que incluyen:

  • Modo en segundo plano: Como se observa en productos de agencia como Codex , deep research y Operator , los modelos de razonamiento pueden tardar varios minutos en resolver problemas complejos. Los desarrolladores ahora pueden usar el modo en segundo plano para crear experiencias similares en modelos como o3 sin preocuparse por tiempos de espera ni otros problemas de conectividad. El modo en segundo plano inicia estas tareas de forma asíncrona. Los desarrolladores pueden sondear estos objetos para comprobar su finalización o iniciar la transmisión de eventos cuando su aplicación necesite actualizarse al estado más reciente. Más información .(se abre en una nueva ventana).

Pitón

1response = client.responses.create(2  model="o3",3input="Write me an extremely long story.",4  reasoning={ "effort": "high" },5  background=True6)
  • Resúmenes de razonamiento: La API de Respuestas ahora puede generar resúmenes concisos y en lenguaje natural de la cadena de pensamiento interna del modelo, similares a los que se ven en ChatGPT. Esto facilita a los desarrolladores la depuración, la auditoría y la creación de mejores experiencias para el usuario final. Los resúmenes de razonamiento están disponibles sin costo adicional. Más información .(se abre en una nueva ventana).

Pitón

1response = client.responses.create(2    model="o4-mini",3    tools=[4        {5"type": "code_interpreter",6"container": {"type": "auto"}7        }8    ],9    instructions=(10"You are a personal math tutor. "11"When asked a math question, run code to answer the question."12    ),13input="I need to solve the equation `3x + 11 = 14`. Can you help me?",14    reasoning={"summary": "auto"}15)

Pitón

1response = client.responses.create(2  model="o3",3input="Implement a simple web server in Rust from scratch.",4  store=False,5  include=["reasoning.encrypted_content"]6)

Precios y disponibilidad

Todas estas herramientas y funciones ya están disponibles en la API de Respuestas, compatible con nuestras series GPT‑4o y GPT‑4.1, y con nuestros modelos de razonamiento de la serie o de OpenAI (o1, o3, o3‑mini y o4-mini). La generación de imágenes solo es compatible con la serie o3 de nuestros modelos de razonamiento. 

Los precios de las herramientas existentes se mantienen. La generación de imágenes cuesta $5.00/1 millón de tokens de entrada de texto, $10.00/1 millón de tokens de entrada de imagen y $40.00/1 millón de tokens de salida de imagen, con un 75% de descuento en tokens de entrada en caché. El intérprete de código cuesta $0.03 por contenedor. La búsqueda de archivos cuesta $0.10/GB de almacenamiento vectorial al día y $2.50/1000 llamadas a la herramienta. Llamar a la herramienta del servidor MCP remoto no tiene costo adicional; simplemente se le facturan los tokens de salida de la API. Más información sobre precios .(se abre en una nueva ventana)en nuestros documentos. 

¡Estamos emocionados de ver lo que construyes!

OpenAI News. Traducido al español

Artículos relacionados

Scroll al inicio