Una vista previa de investigación de un agente que puede usar su propio navegador para realizar tareas por usted. Disponible para usuarios Pro en EE. UU.
Hoy lanzamos Operator (se abre en una nueva ventana), un agente que puede acceder a la web para realizar tareas por usted. Mediante su propio navegador, puede ver una página web e interactuar con ella escribiendo, haciendo clic y desplazándose. Actualmente es una versión preliminar de investigación , lo que significa que tiene limitaciones y evolucionará en función de los comentarios de los usuarios. Operator es uno de nuestros primeros agentes, que son IA capaces de realizar el trabajo por usted de forma independiente: le da una tarea y la ejecutará.
Se le puede pedir al operador que se encargue de una amplia variedad de tareas repetitivas del navegador, como completar formularios, realizar pedidos de comestibles e incluso crear memes. La capacidad de utilizar las mismas interfaces y herramientas con las que los humanos interactúan a diario amplía la utilidad de la IA, lo que ayuda a las personas a ahorrar tiempo en las tareas cotidianas y, al mismo tiempo, abre nuevas oportunidades de interacción para las empresas.
Para garantizar una implementación segura e iterativa, comenzamos de a poco. A partir de hoy, Operator está disponible para usuarios Pro en los EE. UU. en operator.chatgpt.com .(se abre en una nueva ventana)Esta vista previa de la investigación nos permite aprender de nuestros usuarios y del ecosistema más amplio, y refinar y mejorar a medida que avanzamos. Nuestro plan es expandirnos a los usuarios de Plus, Team y Enterprise e integrar estas capacidades en ChatGPT en el futuro.
Cómo funciona el operador
El operador funciona con un nuevo modelo llamado Computer-Using Agent (CUA) . Al combinar las capacidades de visión de GPT-4o con el razonamiento avanzado a través del aprendizaje de refuerzo, el CUA está capacitado para interactuar con las interfaces gráficas de usuario (GUI), es decir, los botones, menús y campos de texto que las personas ven en una pantalla.
El operador puede “ver” (a través de capturas de pantalla) e “interactuar” (utilizando todas las acciones que permiten un mouse y un teclado) con un navegador, lo que le permite realizar acciones en la web sin necesidad de integraciones API personalizadas.
Si encuentra desafíos o comete errores, Operator puede aprovechar sus capacidades de razonamiento para autocorregirse. Cuando se traba y necesita ayuda, simplemente devuelve el control al usuario, lo que garantiza una experiencia fluida y colaborativa.
Si bien CUA aún se encuentra en sus primeras etapas y tiene limitaciones, establece nuevos resultados de referencia de vanguardia en WebArena y WebVoyager, dos puntos de referencia clave para el uso de navegadores. Lea más sobre las evaluaciones y la investigación detrás de Operator en nuestra publicación de blog de investigación .
Cómo utilizar
Para comenzar, simplemente describa la tarea que desea que se realice y el operador se encargará del resto. Los usuarios pueden elegir tomar el control del navegador remoto en cualquier momento y el operador está capacitado para solicitarle de manera proactiva que se haga cargo de las tareas que requieren inicio de sesión, detalles de pago o resolución de CAPTCHA.
Los usuarios pueden personalizar sus flujos de trabajo en Operator añadiendo instrucciones personalizadas, ya sea para todos los sitios o para sitios específicos, como por ejemplo, establecer preferencias para aerolíneas en Booking.com. Operator permite a los usuarios guardar avisos para acceder rápidamente a ellos en la página de inicio, lo que resulta ideal para tareas repetidas, como reponer alimentos en Instacart. De forma similar al uso de varias pestañas en un navegador, los usuarios pueden hacer que Operator ejecute varias tareas simultáneamente creando nuevas conversaciones, como pedir una taza de esmalte personalizada en Etsy mientras se reserva un camping en Hipcamp.PersonalizaciónOptimizandoPersonalizaciónOptimizando
Ecosistema y usuarios
Operador Transforma la IA de una herramienta pasiva a un participante activo en el ecosistema digital. Agilizará las tareas de los usuarios y acercará los beneficios de los agentes a las empresas que desean experiencias de cliente innovadoras y mayores tasas de conversión. Estamos colaborando con empresas como DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber y otras para garantizar que Operator aborde las necesidades del mundo real respetando las normas establecidas. Además de estas colaboraciones, vemos mucho potencial para mejorar la accesibilidad y la eficiencia de ciertos flujos de trabajo, particularmente en aplicaciones del sector público. Para explorar estos casos de uso más a fondo, estamos trabajando con organizaciones como la ciudad de Stockton para facilitar la inscripción a los servicios y programas de la ciudad.
“A medida que aprendamos más sobre Operator durante su vista previa de investigación, estaremos mejor equipados para identificar formas en que la IA puede hacer que la participación cívica sea aún más fácil para nuestros residentes”. Jamil Niazi, director de tecnología de la información de la ciudad de Stockton.
OpenAI News. Traducido al español