ChatGPT ahora piensa y actúa, eligiendo de manera proactiva entre una caja de herramientas de habilidades de agencia para completar tareas para usted usando su propia computadora.
ChatGPT ahora puede trabajar por usted usando su propia computadora, manejando tareas complejas de principio a fin.
Ahora puedes pedirle a ChatGPT que gestione solicitudes como «Consultar mi calendario e informarme sobre las próximas reuniones con clientes según las noticias recientes», «Planificar y comprar ingredientes para preparar un desayuno japonés para cuatro» y «Analizar a tres competidores y crear una presentación». ChatGPT navegará inteligentemente por sitios web, filtrará resultados, te solicitará que inicies sesión de forma segura cuando sea necesario, ejecutará código, realizará análisis e incluso te entregará presentaciones y hojas de cálculo editables que resumen sus hallazgos.
En el centro de esta nueva capacidad se encuentra un sistema de agencia unificado. Este sistema aúna tres puntos fuertes de innovaciones anteriores: la capacidad del operador para interactuar con sitios web, la capacidad de la investigación profunda para sintetizar información, y la inteligencia y fluidez conversacional de ChatGPT.
ChatGPT lleva a cabo estas tareas utilizando su propia computadora virtual, cambiando fluidamente entre el razonamiento y la acción para manejar flujos de trabajo complejos de principio a fin, todo basado en sus instrucciones.
Lo más importante es que siempre tienes el control. ChatGPT solicita permiso antes de realizar acciones importantes, y puedes interrumpir, tomar el control del navegador o detener tareas fácilmente en cualquier momento.
A partir de hoy, los usuarios Pro, Plus y Team pueden activar las nuevas capacidades de agente de ChatGPT directamente a través del menú desplegable de herramientas del compositor, seleccionando «modo agente» en cualquier momento de cualquier conversación.
Si bien el agente ChatGPT ya es una herramienta potente para gestionar tareas complejas, el lanzamiento de hoy es solo el comienzo. Seguiremos incorporando mejoras significativas de forma iterativa y regular, haciéndolo más eficaz y útil para más personas con el tiempo.
Una evolución natural del Operador y una investigación profunda
Anteriormente, Operator y la investigación profunda ofrecían ventajas únicas: Operator podía navegar, hacer clic y escribir en la web, mientras que la investigación profunda destacaba en el análisis y resumen de información. Sin embargo, funcionaban mejor en situaciones diferentes: Operator no podía profundizar en el análisis ni generar informes detallados, y la investigación profunda no podía interactuar con sitios web para refinar resultados ni acceder a contenido que requiriera autenticación del usuario. De hecho, observamos que muchas consultas que los usuarios intentaban con Operator eran más adecuadas para la investigación profunda, así que combinamos lo mejor de ambas.
Al integrar estas fortalezas complementarias en ChatGPT e incorporar herramientas adicionales, hemos desbloqueado capacidades completamente nuevas en un solo modelo. Ahora puede interactuar activamente con los sitios web: haciendo clic, filtrando y obteniendo resultados más precisos y eficientes. También puede pasar de una simple conversación a solicitar acciones directamente desde el mismo chat.
00:00 01:54
00:00 00:00
00:00 00:00
00:00 00:00
Un agente que trabaja para ti, contigo
Hemos equipado al agente de ChatGPT con un conjunto de herramientas: un navegador visual que interactúa con la web mediante una interfaz gráfica de usuario, un navegador de texto para consultas web más sencillas basadas en razonamiento, una terminal y acceso directo a la API. El agente también puede aprovechar los conectores de ChatGPT .(se abre en una nueva ventana), que permite conectar aplicaciones como Gmail y Github para que ChatGPT encuentre información relevante para tus indicaciones y la use en sus respuestas. También puedes iniciar sesión en cualquier sitio web controlando el navegador, lo que le permite profundizar y ampliar su búsqueda y ejecución de tareas. Al ofrecer a ChatGPT estas diferentes vías para acceder e interactuar con la información web, puede elegir la ruta óptima para realizar tareas de la forma más eficiente. Por ejemplo, puede recopilar información sobre tu calendario mediante una API, analizar grandes cantidades de texto de forma eficiente mediante el navegador basado en texto y, al mismo tiempo, interactuar visualmente con sitios web diseñados principalmente para usuarios.
Todo esto se realiza mediante su propia computadora virtual, que conserva el contexto necesario para la tarea, incluso al usar varias herramientas: el modelo puede abrir una página con el navegador de texto o visual, descargar un archivo de la web, manipularlo ejecutando un comando en la terminal y luego visualizar el resultado en el navegador visual. El modelo adapta su enfoque para realizar tareas con rapidez, precisión y eficiencia.
El agente ChatGPT está diseñado para flujos de trabajo iterativos y colaborativos, y es mucho más interactivo y flexible que los modelos anteriores. Durante el funcionamiento de ChatGPT, puedes interrumpirlo en cualquier momento para aclarar tus instrucciones, orientarlo hacia los resultados deseados o modificar la tarea por completo. Reanudará la tarea donde la dejaste, ahora con la nueva información, pero sin perder el progreso previo. Asimismo, ChatGPT puede solicitarte información adicional de forma proactiva cuando sea necesario para garantizar que la tarea se mantenga alineada con tus objetivos. Si una tarea tarda más de lo previsto o parece atascada, puedes pausarla, solicitar un resumen del progreso o detenerla por completo y recibir resultados parciales. Si tienes la app ChatGPT en tu teléfono, te enviará una notificación cuando haya terminado la tarea.
Ampliando la utilidad en el mundo real
Estas capacidades unificadas de agencia mejoran significativamente la utilidad de ChatGPT tanto en el día a día como en el profesional. En el trabajo, puede automatizar tareas repetitivas, como convertir capturas de pantalla o paneles en presentaciones compuestas de elementos vectoriales editables, reorganizar reuniones, planificar y reservar actividades fuera de la oficina y actualizar hojas de cálculo con nuevos datos financieros, manteniendo el mismo formato. En su vida personal, puede usarlo para planificar y reservar fácilmente itinerarios de viaje, diseñar y reservar cenas completas, o encontrar especialistas y programar citas.
Las capacidades elevadas del modelo se reflejan en su desempeño de última generación (SOTA) en evaluaciones que miden la navegación web y las capacidades de finalización de tareas en el mundo real.
Sobre el último examen de la humanidad(se abre en una nueva ventana)*, una evaluación que mide el rendimiento de la IA en una amplia gama de temas con preguntas de nivel experto, el modelo que impulsa al agente de ChatGPT obtiene una nueva puntuación SOTA de 41,6, con un aprobado a 1. Dado que el agente planifica dinámicamente y elige sus propias herramientas, puede abordar la misma tarea de diferentes maneras en cada ejecución. Al escalar esto con una estrategia simple de implementación paralela (ejecutando hasta ocho intentos a la vez y seleccionando el que presentaba la mayor confianza autoinformada), la puntuación HLE del agente aumenta a 44,4.20.3%23.0%24.9%26.6%41.6%Humanity’s Last Exam (Full Set)Expert-Level Questions Across SubjectsOpenAI o3(no tools)ChatGPT agent (no tools)OpenAI o3(python + browsing)Deep research(python + browsing)ChatGPT agent(browser + computer +terminal)Accuracy (%), pass@1
FrontierMath** es el benchmark matemático más complejo conocido, que presenta problemas novedosos e inéditos cuya resolución suele llevar horas o incluso días a matemáticos expertos. Con el uso de herramientas como el acceso a una terminal para la ejecución de código, el agente ChatGPT alcanza una precisión del 27,4 %, superando ampliamente a los dos modelos anteriores.10.3%19.3%27.4%FrontierMath, Tier 1-3Expert-Level MathOpenAI o3(python)OpenAI o4-mini(python)ChatGPT agent(browser + computer +terminal)Accuracy (%), pass@1
También evaluamos el modelo utilizando puntos de referencia basados en tareas complejas del mundo real. En un punto de referencia interno diseñado para evaluar el rendimiento del modelo en tareas complejas de trabajo del conocimiento con valor económico , el rendimiento del agente de ChatGPT es comparable o superior al de los humanos en aproximadamente la mitad de los casos, en un rango de tiempos de finalización de tareas, a la vez que supera significativamente a o3 y o4-mini. Los resultados del modelo son evaluados por expertos en comparación con puntos de referencia humanos de alta calidad creados por los mejores profesionales de cada campo. Estas tareas, realizadas por expertos de diversas ocupaciones e industrias, reflejan el trabajo profesional del mundo real, como la preparación de un análisis competitivo de proveedores de atención de urgencias a demanda, la elaboración de calendarios de amortización detallados y la identificación de pozos de agua viables para una nueva planta de hidrógeno verde. o4-mini wino4-mini tieo3 wino3 tieChatGPT agent winChatGPT agent tieEconomically important tasks1 to 3 h4 to 6 h7 to 9 h10+ hEstimated time for a human to complete020406080100Model’s win and tie rates versus human
En DSBench(se abre en una nueva ventana)Diseñado para evaluar agentes en tareas de ciencia de datos realistas que abarcan el análisis y modelado de datos, el agente ChatGPT supera notablemente el desempeño humano por un margen significativo .34.1%64.1%87.9%89.9%DSBench: Data AnalysisGPT-4oHumanOpenAI o3ChatGPT agentAccuracy (%), pass@145.5%65.0%77.1%85.5%DSBench: Data ModelingAutoGenwith GPT-4oHumanOpenAI o3ChatGPT agentRelative performance gain
En SpreadsheetBench , que evalúa la capacidad de los modelos para editar hojas de cálculo derivadas de escenarios reales, el agente ChatGPT supera con creces a los modelos existentes. Al poder editar hojas de cálculo directamente, el agente ChatGPT obtiene una puntuación aún mayor, con un 45,5 %, en comparación con el 20 % de Copilot en Excel. 18.4%20.0%16.8%23.3%35.3%45.5%71.3%Windows, ExcelOSX, LibreOfficeHumanSpreadsheetBenchGPT-4o (Windows)Copilot in ExcelGPT-4o (OSX)OpenAI o3ChatGPT agentChatGPT agent with .xlsxaccessHumanAccuracy (%), pass@1
Metodología: Los autores de SpreadsheetBench utilizaron un entorno Windows con Microsoft Excel para evaluar las hojas de cálculo. Nosotros utilizamos un entorno OSX y LibreOffice, lo que puede resultar en pequeñas diferencias de calificación. Por ejemplo, los autores encontraron una restricción general estricta del 15,02 % para GPT-4o, mientras que nosotros obtuvimos un 13,38 %. Utilizamos el benchmark completo de 912 preguntas.
Según un índice de referencia interno que mide la capacidad de un modelo para asumir tareas de modelado de analistas de banca de inversión de primer a tercer año —como la elaboración de un modelo financiero de tres estados financieros para una empresa de Fortune 500 con el formato y las citas correctos, o la creación de un modelo de compra apalancada para una empresa privatizada—, el modelo que impulsa el agente ChatGPT supera significativamente la investigación exhaustiva y el o3. Cada tarea se califica según cientos de criterios relacionados con la corrección y el uso de fórmulas.55.9%48.6%71.3%27.5%19.7%41.0%Mean AccuracyOracle@64***Investment Banking Modeling TasksDeep researchOpenAI o3ChatGPT agentAccuracy (%)
También evaluamos el agente ChatGPT en BrowseComp , un benchmark publicado a principios de este año que mide la capacidad de los agentes de navegación para localizar información difícil de encontrar en la web. El modelo estableció un nuevo SOTA del 68,9 %, 17,4 puntos porcentuales por encima de la investigación exhaustiva.49.7%51.5%68.9%BrowseCompAgentic BrowsingOpenAI o3Deep researchChatGPT agentAccuracy (%), pass@1
Por fin, en WebArena (se abre en una nueva ventana), un punto de referencia diseñado para evaluar el desempeño de los agentes de navegación web al completar tareas web del mundo real, el modelo mejora al CUA impulsado por o3 (el modelo que impulsa a Operator). 58.1%62.9%65.4%78.2%WebArenaAgentic Browser UseCUA 4oCUA o3ChatGPT agentHumanAccuracy (%), pass@1
Cómo utilizar
Puedes activar las nuevas funciones de agente de ChatGPT directamente a través del menú desplegable de herramientas del editor, seleccionando «modo agente» en cualquier momento de la conversación. Simplemente describe la tarea que deseas, ya sea realizar una investigación exhaustiva, crear una presentación o enviar gastos. Mientras realiza la tarea, una narración en pantalla te permite ver exactamente lo que ChatGPT está haciendo. Puedes interrumpir y tomar el control del navegador cuando lo necesites, asegurando que las tareas se ajusten a tus objetivos.
El agente de ChatGPT puede acceder a sus conectores, lo que le permite integrarse con sus flujos de trabajo y acceder a información relevante y práctica. Una vez autenticados, estos conectores permiten a ChatGPT ver información y realizar tareas como resumir su bandeja de entrada del día o encontrar franjas horarias disponibles para una reunión. Para realizar acciones en estos sitios, se le solicitará que inicie sesión tomando el control del navegador.
Además, puedes programar tareas completadas para que se repitan automáticamente, como generar un informe de métricas semanal todos los lunes por la mañana.
Nuevas capacidades, nuevos riesgos
Esta versión marca la primera vez que los usuarios pueden solicitar a ChatGPT que realice acciones en la web. Esto presenta nuevos riesgos, especialmente porque el agente de ChatGPT puede trabajar directamente con sus datos, ya sea información a la que se accede mediante conectores o sitios web en los que ha iniciado sesión mediante el modo de adquisición. Hemos reforzado los controles robustos de la vista previa de investigación de Operator y hemos añadido protecciones para desafíos como el manejo de información confidencial en la web en vivo, un mayor alcance de usuarios y el acceso (limitado) a la red de terminales. Si bien estas mitigaciones reducen significativamente el riesgo, las herramientas ampliadas y el mayor alcance de usuarios del agente de ChatGPT implican un perfil de riesgo general más alto.
Hemos puesto especial énfasis en proteger al agente ChatGPT contra la manipulación adversaria mediante la inyección de avisos , un riesgo para los sistemas de agentes en general, y hemos preparado mitigaciones más exhaustivas en consecuencia. Las inyecciones de avisos son intentos de terceros de manipular su comportamiento mediante instrucciones maliciosas que el agente ChatGPT puede encontrar en la web al completar una tarea. Por ejemplo, un aviso malicioso oculto en una página web, como en elementos invisibles o metadatos, podría inducir al agente a realizar acciones no deseadas, como compartir datos privados de un conector con el atacante o realizar una acción dañina en un sitio web en el que el usuario ha iniciado sesión. Dado que el agente ChatGPT puede realizar acciones directas, los ataques exitosos pueden tener un mayor impacto y suponer mayores riesgos.
Hemos entrenado y probado al agente para identificar y resistir las inyecciones de avisos, además de usar la monitorización para detectar y responder rápidamente a estos ataques. Exigir la confirmación explícita del usuario antes de realizar acciones consecuentes reduce aún más el riesgo de daños derivados de estos ataques, y los usuarios pueden intervenir en las tareas según sea necesario, ya sea asumiendo el control o pausando la ejecución. Los usuarios deben sopesar estas ventajas y desventajas al decidir qué información proporcionar al agente, así como tomar medidas para minimizar su exposición a estos riesgos, como deshabilitar los conectores cuando no sean necesarios para una tarea.
También hemos implementado mitigaciones en torno a errores del modelo, especialmente porque el modelo ahora puede realizar tareas que impactan el mundo real:
- Confirmación explícita del usuario: ChatGPT está entrenado para solicitar explícitamente su permiso antes de realizar acciones con consecuencias en el mundo real, como realizar una compra.
- Supervisión activa (“Modo de vigilancia”): ciertas tareas críticas, como el envío de correos electrónicos, requieren su supervisión activa.
- Mitigación de riesgos proactiva: ChatGPT está capacitado para rechazar activamente tareas de alto riesgo, como transferencias bancarias.
Por último, hemos introducido controles adicionales para limitar los datos a los que tiene acceso el modelo:
- Controles de privacidad: Con un solo clic en la configuración de ChatGPT, puede eliminar todos los datos de navegación y cerrar sesión inmediatamente en todas las sesiones activas del sitio web. De lo contrario, las cookies se conservan según las políticas de cookies de cada sitio web visitado, lo que puede mejorar la eficiencia de las visitas repetidas.
- Modo seguro de control del navegador: Al interactuar con la web mediante el navegador de ChatGPT (modo de control), sus entradas se mantienen privadas. ChatGPT no recopila ni almacena ningún dato que introduzca durante estas sesiones, como contraseñas, ya que el modelo no lo necesita y es más seguro si no lo ve.
Nuestra pila de seguridad más sólida hasta el momento para el riesgo biológico
Con las capacidades mejoradas del modelo, hemos decidido considerar al agente ChatGPT como de Alta Capacidad Biológica y Química según nuestro Marco de Preparación , activando las salvaguardias asociadas. Si bien no contamos con evidencia definitiva de que el modelo pueda ayudar significativamente a un novato a causar daños biológicos graves (nuestro umbral de Alta Capacidad), estamos actuando con cautela e implementando las salvaguardias necesarias. Como resultado, este modelo cuenta con nuestro conjunto de seguridad más completo hasta la fecha, con salvaguardias mejoradas para biología: modelado integral de amenazas, entrenamiento para el rechazo de usos duales, clasificadores y monitores de razonamiento siempre activos, y procesos de cumplimiento claros.
Además de nuestro trabajo para proteger el agente de ChatGPT, sabemos que la bioseguridad estratificada funciona mejor cuando las protecciones se extienden más allá de un solo laboratorio. Por eso, colaboramos con todo el ecosistema para fortalecer las defensas. Desde el primer día, hemos trabajado con expertos externos en bioseguridad, institutos de seguridad e investigadores académicos para definir nuestro modelo de amenazas, evaluaciones y políticas. Revisores con formación en biología validaron nuestros datos de evaluación, y miembros del equipo rojo, expertos en el sector, han probado las protecciones en situaciones reales. A principios de este mes, organizamos un taller de biodefensa con expertos del gobierno, el mundo académico, laboratorios nacionales y ONG para acelerar la colaboración y avanzar en la investigación en biodefensa impulsada por IA. Seguiremos colaborando a nivel mundial para anticiparnos a los riesgos emergentes.
Lea más sobre nuestro sólido enfoque de seguridad para el modelo unificado de agentes en la tarjeta del sistema . También estamos lanzando un programa de recompensas por errores para detectar y remediar riesgos reales.
Disponibilidad
El agente de ChatGPT comienza hoy a implementarse en las versiones Pro, Plus y Team. El acceso al servicio Pro comenzará al final del día, mientras que los usuarios de Plus y Team lo harán en los próximos días. Los usuarios de Enterprise y Education lo harán en las próximas semanas. Los usuarios Pro tienen 400 mensajes al mes, mientras que los usuarios de pago reciben 40 mensajes al mes, con uso adicional disponible mediante opciones flexibles basadas en créditos.
Seguimos trabajando para permitir el acceso al Espacio Económico Europeo y Suiza.
El sitio de vista previa de investigación de operadores permanecerá operativo durante algunas semanas más, tras las cuales se cerrará. La investigación profunda forma parte de las capacidades del agente de ChatGPT. Si prefiere la función original de investigación profunda (que puede tardar más en ejecutarse, pero ofrece respuestas más detalladas y exhaustivas por defecto), puede acceder a ella seleccionando «investigación profunda» en el menú desplegable del editor de mensajes.
Limitaciones y mirada hacia el futuro
El agente ChatGPT aún se encuentra en sus primeras etapas. Es capaz de realizar diversas tareas complejas, pero aún puede cometer errores.
Si bien vemos un gran potencial en su capacidad para generar presentaciones, esta funcionalidad se encuentra actualmente en fase beta. Actualmente, los resultados pueden parecer rudimentarios en cuanto a formato y acabado, especialmente al comenzar sin un documento existente. Centramos las capacidades iniciales del modelo en generar artefactos que organicen la información con un flujo y un formato adecuados para presentaciones, con elementos como texto, gráficos, imágenes y formas que se pueden editar de forma nativa y fácil tras la exportación, optimizando así la estructura y la flexibilidad. Actualmente, también existen discrepancias ocasionales entre las diapositivas del visor y la presentación de PowerPoint exportada, que estamos trabajando para reducir. Además, si bien actualmente se puede cargar una hoja de cálculo existente para que ChatGPT la edite o la use como plantilla, esta función aún no está disponible para presentaciones. Ya estamos entrenando la siguiente versión del sistema de creación de presentaciones de ChatGPT para producir resultados más pulidos y sofisticados, con capacidades más amplias y un formato mejorado.
En general, esperamos mejoras continuas en la eficiencia, profundidad y versatilidad del agente ChatGPT a lo largo del tiempo, incluidas interacciones más fluidas a medida que continuamos ajustando la cantidad de supervisión requerida por parte del usuario para hacerlo más útil y garantizar que su uso sea seguro.
Apéndice
Banco de hojas de cálculo | ||||
Modelo | Entorno de evaluación | Restricción suave (%): a nivel de celda | Restricción suave (%): a nivel de hoja | Restricción blanda (%): General |
GPT‑4o | Ventanas, Excel | 15.03 | 23.65 | 18.35 |
Copiloto en Excel | Ventanas, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
Agente de ChatGPT | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
Agente ChatGPT con .xlsx | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
Humano | 75.56 | 65.00 | 71.33 |
Notas al pie
Al habilitar la navegación, el modelo a veces puede encontrar respuestas exactas en línea, por ejemplo, leyendo entradas de blog con ejemplos de problemas de un conjunto de datos. Mitigamos el riesgo de que el modelo haga trampas al navegar con dos estrategias:
1. Dominios bloqueados en los que hemos observado que el modelo ha hecho trampa en el pasado.
2. Se utilizó un modelo adicional como monitor para examinar todos los tokens de salida de la herramienta en cada intento de identificar comportamiento sospechoso. El comportamiento sospechoso se define como «una página, archivo o fragmento cuyo propósito principal es proporcionar la respuesta exacta a esta pregunta específica; por ejemplo, una clave de calificación oficial, una filtración de la esencia de las «soluciones» o una discusión que cita textualmente la respuesta final». El comportamiento benigno se define como «cualquier recurso confiable que una persona diligente podría consultar (documentación, manuales, artículos académicos, artículos de confianza), incluso si contiene accidentalmente la respuesta correcta». Cualquier intento en el que el monitor considere que la implementación es sospechosa se contabiliza como incorrecto. La mayoría de las muestras que no superaron esta comprobación fueron problemas cuya solución exacta estaba disponible en múltiples fuentes de internet no relacionadas con HLE.
**OpenAI tiene acceso exclusivo a 237 de las 290 preguntas privadas del conjunto de datos de niveles 1 a 3. Las preguntas de nivel 4 de FrontierMath no se incluyen en esta evaluación. Los resultados se evalúan como el promedio de 16 intentos por pregunta. Los resultados del agente ChatGPT son generados por OpenAI y calificados por Epoch AI, con acceso al navegador y al terminal, y con un límite de 128 000 tokens por respuesta. Las evaluaciones de OpenAI o4-mini y o3 son generadas y calificadas por Epoch AI, sin acceso al navegador ni al terminal, mediante scripts de Python mediante llamadas a funciones, y con un límite de 100 000 tokens por respuesta.
*** Oracle@64 se refiere a la mejor puntuación obtenida en 64 ejecuciones muestreadas, seleccionadas mediante la verdad fundamental (es decir, seleccionamos el intento con la puntuación más alta para cada tarea en función del rendimiento real calificado). Reportamos el promedio de estas mejores puntuaciones por tarea en todas las tareas. Esta métrica resalta el potencial máximo del modelo y la varianza en el rendimiento de la tarea, lo que muestra su capacidad cuando tiene éxito e indica margen para mejorar la consistencia mediante entrenamiento adicional. A diferencia de las métricas típicas de «mejor de N», que seleccionan según la confianza del modelo, Oracle@64 utiliza la verdad fundamental para la selección y se aplica a tareas calificadas en una escala continua de 0 a 1, en lugar de una escala binaria de aprobado/reprobado.
OpenAI News. Traducido al español