Una actualización sobre nuestra colaboración con organismos de investigación y normalización de EE. UU. y el Reino Unido para la implementación segura de IA.
Nos enorgullece seguir ampliando las fronteras de las capacidades y la seguridad de la IA. Desarrollar e implementar una IA segura y útil es fundamental para nuestra misión de garantizar que la IA general beneficie a toda la humanidad. Para ello, es fundamental nuestra colaboración con organismos de investigación y normalización de EE. UU. y el Reino Unido, que también se dedican a garantizar la implementación segura de la IA para sus ciudadanos.
Fuimos de las primeras empresas en firmar acuerdos voluntarios con el Centro de Estándares e Innovación en IA (CAISI) de EE. UU. y el Instituto de Seguridad de IA del Reino Unido (AISI). Estas alianzas reflejan nuestra convicción de que el desarrollo de la IA de vanguardia debe realizarse en estrecha colaboración con gobiernos aliados que aportan una amplia experiencia en aprendizaje automático, seguridad nacional y metrología.
Hoy compartimos ejemplos de cómo estas colaboraciones voluntarias han aprovechado nuestros enfoques de seguridad existentes para generar mejoras prácticas en la seguridad: la creación de equipos de protección contra el uso indebido de sustancias biológicas, la realización de pruebas integrales de productos para detectar problemas de seguridad y la rápida retroalimentación para resolver vulnerabilidades relacionadas. El resultado son protecciones más sólidas para productos de IA de uso generalizado, lo que eleva el estándar para la industria en general, impulsa la adopción de la IA y demuestra cómo los gobiernos y la industria pueden colaborar para evaluar y mejorar la seguridad de los sistemas de IA.
Colaboración para asegurar la implementación de agentes de IA
Durante más de un año, OpenAI se ha asociado con CAISI para evaluar (se abre en una nueva ventana)OpenAI modela las capacidades en ámbitos cibernéticos, químico-biológicos y otros ámbitos relevantes para la seguridad nacional. Recientemente, ampliamos nuestra colaboración para incluir los nuevos desafíos de seguridad de los productos y nos asociamos con CAISI para reforzar la seguridad de los sistemas de IA agentic de OpenAI. En un nuevo tipo de colaboración, que tuvo lugar en julio, OpenAI colaboró con CAISI para explorar cómo podemos colaborar con evaluadores externos para detectar y corregir vulnerabilidades de seguridad en sistemas agentic, como el producto ChatGPT Agent de OpenAI.
Esta colaboración con CAISI fue un paso preliminar hacia un nuevo ámbito de sistemas de agentes de red teaming. Nuestro objetivo es continuar colaborando en este ámbito, y nuestro trabajo con CAISI se basa en otras capas de esfuerzos de seguridad de implementación, incluyendo nuestras propias pruebas internas .
Un equipo de expertos de CAISI, que combina experiencia en ciberseguridad y seguridad de agentes de IA, trabajó para investigar e identificar nuevas vulnerabilidades en estos sistemas. CAISI obtuvo acceso anticipado al agente ChatGPT, lo que les permitió comprender la arquitectura del sistema desde el principio. Posteriormente, el equipo redteamizó el sistema liberado.
En una investigación en curso, CAISI identificó dos nuevas vulnerabilidades de seguridad en ChatGPT Agent que, bajo ciertas circunstancias, podrían haber permitido a un atacante sofisticado eludir nuestras protecciones de seguridad y controlar de forma remota los sistemas informáticos a los que el agente podía acceder durante esa sesión y suplantar con éxito al usuario en otros sitios web en los que había iniciado sesión.
Debido a las medidas de seguridad en el diseño del producto de OpenAI, CAISI inicialmente consideró que las vulnerabilidades descubiertas eran inexplotables y, por lo tanto, inútiles para los atacantes. Sin embargo, tras un análisis más profundo, CAISI encontró una manera de eludir las protecciones de seguridad de los sistemas de OpenAI combinando estas cibervulnerabilidades tradicionales con un ataque de secuestro de agentes de IA .(se abre en una nueva ventana)El ataque de prueba de concepto desarrollado por CAISI eludió con éxito diversas protecciones de seguridad basadas en IA, lo que resultó en una cadena de exploits completa con una tasa de éxito de aproximadamente el 50 %. El enfoque multidisciplinario del equipo de CAISI les permitió desarrollar una sofisticada cadena de exploits que combina vulnerabilidades de software tradicionales con vulnerabilidades de IA. Como ejemplo de cómo los sistemas de IA pueden ser una herramienta valiosa para las pruebas de seguridad, CAISI utilizó el propio Agente ChatGPT para facilitar el proceso de descubrimiento de estas vulnerabilidades.
Estos ataques fueron reportados inmediatamente a OpenAI y fueron solucionados por OpenAI en el plazo de un día hábil.
Esta colaboración voluntaria entre OpenAI y CAISI se basa en nuestra colaboración de investigación y evaluación de un año de duración. Encontrar estas vulnerabilidades requirió la innovación de CAISI para encadenar múltiples exploits y combinar ataques para desarrollar nuevas formas de comprometer los sistemas de IA, aprovechando métodos de ciberseguridad y aprendizaje automático. La intersección de la seguridad de los agentes de IA y la ciberseguridad tradicional requerirá el desarrollo de nuevas prácticas recomendadas, y la colaboración de CAISI para mejorar este aspecto de la ciencia de las evaluaciones y la seguridad de los sistemas de IA ya está beneficiando directamente a los usuarios finales de estos sistemas.
Nuestras salvaguardias agentes también incorporan lecciones que aprendimos de inversiones a gran escala anteriores que hicimos para proteger nuestros sistemas contra el uso indebido de productos biológicos, que incluyeron una serie de asociaciones para fortalecer estas salvaguardias con terceros, incluido AISI del Reino Unido.
Colaborando en Bioseguridad
Como parte de nuestra colaboración continua con UK AISI, en mayo, UK AISI comenzó a implementar un equipo rojo para nuestras medidas de protección contra el uso indebido de productos biológicos (según lo definido en las políticas de OpenAI), incluyendo las medidas de protección tanto en ChatGPT Agent como en GPT-5. En lugar de limitar esto a un lanzamiento individual, se trata de una colaboración continua para mejorar continuamente la eficacia de nuestro conjunto de medidas de protección.
Como parte de esta colaboración, UK AISI obtuvo acceso completo a nuestros sistemas, con el apoyo del trabajo a medida de OpenAI para permitir una mayor personalización y seguridad. Esto incluyó:
- Prototipos no públicos de nuestros sistemas de protección
- Variantes del modelo “solo útiles” con ciertas barandillas eliminadas
- Orientación política interna de OpenAI sobre el uso indebido de productos biológicos
- Acceso a la cadena de pensamiento de los modelos de monitorización de seguridad internos de OpenAI para identificar vulnerabilidades de forma más eficiente
- Desactivación selectiva de ciertas mitigaciones y medidas de cumplimiento durante las pruebas para investigar subcomponentes del sistema
Un equipo multidisciplinario de UK AISI, que combinaba experiencia en técnicas de equipos rojos de IA y en el ámbito de la bioseguridad, buscó entonces encontrar fugas universales contra las medidas de bioseguridad de OpenAI. El equipo de UK AISI aportó una profunda experiencia en pruebas técnicas, como el aprovechamiento de conocimientos de diseño de sistemas para crear ataques, lo que sentó una base sólida para el éxito de la colaboración.
Esta colaboración abarcó todos los aspectos de un sistema implementado, desde las respuestas individuales de los modelos hasta la experiencia integral del producto. El proceso se desarrolló en iteraciones: UK AISI analizaría los sistemas prototipo de OpenAI, OpenAI reforzaría las medidas de seguridad en respuesta, y las pruebas se repetirían.
Un ciclo de retroalimentación ágil fue fundamental para este trabajo. Desde mayo y hasta el lanzamiento de ChatGPT Agent en julio y GPT‑5 en agosto, los equipos de UK AISI y OpenAI mantuvieron reuniones puntuales frecuentes, con una frecuencia semanal, que incluyeron colaboración directa con los equipos técnicos para comprender mejor y abordar problemas específicos. OpenAI también creó configuraciones personalizadas para las pruebas, basadas en los resultados de UK AISI, para optimizar las pruebas.
Durante este proceso, UK AISI detectó y OpenAI evaluó más de una docena de informes detallados de vulnerabilidades. Algunos de estos resultaron en correcciones de productos basadas en ingeniería, otros en la implementación de políticas, y otros llevaron a OpenAI a realizar capacitación enfocada en mejorar ciertos aspectos de nuestros clasificadores. Por ejemplo, OpenAI mejoró la robustez de nuestra pila de monitoreo al mejorarla y medirla con un conjunto de jailbreaks universales que UK AISI identificó en los sistemas de monitoreo, los cuales se descubrieron mediante equipos rojos manuales y técnicas de ataque automatizadas. Además, el componente de pruebas integrales resultó ser especialmente beneficioso. OpenAI implementó una serie de mejoras en la configuración de nuestro producto para corregir un conjunto de vulnerabilidades de configuración que UK AISI identificó, donde se podía introducir o exfiltrar contenido malicioso sin activar la moderación.
Nuestra estrecha colaboración permitió a UK AISI acceder a herramientas no públicas (como los CoT del monitor), información no pública (como detalles del diseño de las salvaguardas), así como a la desactivación del sistema de prohibición de cuentas de OpenAI. Estos recursos y condiciones son inaccesibles para los atacantes reales. Esto permitió una gestión de equipos rojos más eficiente y permitió a UK AISI detectar fallos que serían mucho más difíciles de detectar para usuarios maliciosos sin este acceso y nivel de experiencia técnica.
La AISI del Reino Unido considera que las salvaguardias del sistema de moderación completo se reforzaron sustancialmente durante la colaboración. Hacia el final del período de iteración rápida, la detección de ataques universales que evadieran la moderación completa requirió técnicas sofisticadas y un gran número de indicadores de moderación durante su desarrollo. Esto significa que la monitorización del uso probablemente detectaría a cualquier actor malicioso que intentara desarrollar un exploit, lo que eventualmente resultaría en la prohibición de la plataforma.
El trabajo mencionado complementa las demás pruebas de estrés internas y externas que realizamos para nuestras protecciones biológicas, incluyendo pruebas exhaustivas (más de 5000 horas) en tres campañas de pruebas de protecciones diferentes y la colaboración con otros socios externos. (Para más información, consulte las tarjetas del sistema GPT-5 y ChatGPT Agent ).
Por qué esto es importante
- Estas colaboraciones representan algunas de las colaboraciones público-privadas más profundas en la evaluación de sistemas de IA de frontera del mundo real para la seguridad y contra el uso indebido, y esperamos que sirvan como modelos prometedores para el campo.
- Colaborar con los gobiernos socios nos permite aprovechar su experiencia en seguridad nacional y, al mismo tiempo, compartir con ellos la tecnología de vanguardia más avanzada. Esta experiencia práctica, a su vez, permite a los gobiernos socios desarrollar buenas prácticas con base técnica que impulsan la innovación y la seguridad en toda la industria de la IA.
- Esta colaboración condujo a mejoras significativas en la seguridad de algunos de los sistemas de IA más utilizados del mundo.
- Los análisis de expertos externos sobre la seguridad de nuestros sistemas nos ayudan a detectar problemas que de otro modo podríamos pasar por alto y generan responsabilidad y confianza en nuestros sistemas.
- Las colaboraciones continuas pueden ser más profundas y generar más valor que las evaluaciones puntuales previas a la implementación.
Mirando hacia el futuro
La experiencia técnica en IA y seguridad nacional que CAISI y UK AISI aportaron fue crucial para estas colaboraciones y condujo a mejoras significativas en nuestras medidas de seguridad y la seguridad de nuestros productos. Las estrechas colaboraciones técnicas con organizaciones que cuentan con los recursos y los incentivos para evaluar rigurosamente los sistemas de IA refuerzan la confianza en la seguridad de nuestros sistemas.
OpenAI News. Traducido al español