El Portal de las Tecnologías para la Innovación

Tarjeta del sistema del operador

Este informe describe el trabajo de seguridad realizado antes de liberar al Operador, incluido el trabajo en equipo externo, las evaluaciones de riesgo fronterizo de acuerdo con nuestro Marco de preparación y una descripción general de las mitigaciones que incorporamos para abordar las áreas de riesgo clave.

Tarjeta del sistema del operador

Áreas específicas de riesgo

  • Tareas nocivas
  • Errores del modelo
  • Inyecciones rápidas

Cuadro de mando de preparación

  • CBRNBajo
  • CiberseguridadBajo
  • PersuasiónMedio
  • Autonomía del modeloBajo

Calificaciones del cuadro de mando

  • Bajo
  • Medio
  • Alto
  • Crítico

Solo se pueden implementar modelos con una puntuación de post-mitigación de «media» o inferior.
Solo se pueden seguir desarrollando modelos con una puntuación de post-mitigación de «alta» o inferior.

Introducción

Operator es una versión preliminar de investigación de nuestro modelo Computer-Using Agent (CUA), que combina las capacidades de visión de GPT-4o con razonamiento avanzado a través del aprendizaje de refuerzo. Interpreta capturas de pantalla e interactúa con las interfaces gráficas de usuario (GUI) (los botones, menús y campos de texto que las personas ven en la pantalla de una computadora) tal como lo hacen las personas. La capacidad de Operator para usar una computadora le permite interactuar con las mismas herramientas e interfaces que las personas usan a diario, lo que libera el potencial para ayudar con una variedad incomparable de tareas.

Los usuarios pueden ordenar a Operator que realice una amplia variedad de tareas cotidianas mediante un navegador (por ejemplo,
realizar pedidos de comestibles, reservar entradas, comprar entradas para eventos), todo ello bajo la dirección y supervisión del usuario. Esto representa un paso importante hacia un futuro en el que ChatGPT no solo sea capaz de responder preguntas, sino que también pueda tomar medidas en nombre de un usuario.

Si bien Operator tiene el potencial de ampliar el acceso a la tecnología, sus capacidades introducen
vectores de riesgo adicionales. Estos incluyen vulnerabilidades como ataques de inyección rápida en los que instrucciones maliciosas en sitios web de terceros pueden desviar al modelo de las acciones previstas por el usuario. También existe la posibilidad de que el modelo cometa errores que sean difíciles de revertir o que se utilicen para ejecutar tareas dañinas o no permitidas a pedido de un usuario. Para abordar estos riesgos, hemos implementado un enfoque de seguridad de múltiples capas, que incluye rechazos proactivos de tareas de alto riesgo, mensajes de confirmación antes de acciones críticas y sistemas de monitoreo activo para detectar y mitigar amenazas potenciales.

Basándonos en los marcos de seguridad establecidos de OpenAI y en el trabajo de seguridad ya realizado para el modelo GPT-4o subyacente , esta tarjeta de sistema detalla nuestro enfoque de múltiples capas para probar e implementar Operator de manera segura. Describe las áreas de riesgo que identificamos y las mitigaciones del modelo y del producto que implementamos para abordar las nuevas vulnerabilidades. OpenAI. Traducido al español

Artículos relacionados

Scroll al inicio