
Avanzando en el trabajo en equipo con personas e IA
Dos nuevos artículos muestran cómo nuestros esfuerzos de trabajo en equipo externo y automatizado están avanzando para ayudar a ofrecer una IA segura y beneficiosa Interactuar con un sistema de IA es una forma esencial de aprender lo que puede hacer, tanto las capacidades que tiene como los riesgos que puede plantear. El “trabajo en equipo” implica utilizar personas o IA para explorar los riesgos potenciales de un nuevo sistema de manera estructurada. OpenAI ha aplicado el método de trabajo en equipo durante varios años, incluso cuando contratamos a expertos externos .(se abre en una nueva ventana)para probar nuestro modelo de generación de imágenes DALL·E 2 a principios de 2022. Nuestros primeros esfuerzos de trabajo en equipo fueron principalmente «manuales» en el sentido de que dependíamos de personas para realizar las pruebas. Desde entonces, hemos seguido utilizando y perfeccionando nuestros métodos y, en julio pasado, nos unimos a otros laboratorios líderes en un compromiso de invertir más en el trabajo en equipo y avanzar en esta área de investigación. Los métodos de trabajo en equipo incluyen enfoques manuales, automatizados y mixtos, y nosotros utilizamos los tres. Contratamos a expertos externos tanto en métodos manuales como automatizados para probar los posibles riesgos de los nuevos sistemas. Al mismo tiempo, somos optimistas de que podemos utilizar una IA más potente para escalar el descubrimiento de errores en los modelos, tanto para evaluarlos como para entrenarlos para que sean más seguros. Hoy compartimos dos artículos 1 sobre el trabajo en equipo: un informe técnico que detalla cómo contratamos a miembros externos del equipo para probar nuestros modelos de vanguardia y un estudio de investigación que presenta un nuevo método para el trabajo en equipo automatizado. Esperamos que estos esfuerzos contribuyan al desarrollo de métodos de trabajo en equipo más sólidos y una IA más segura. Ejemplo de resultados del trabajo en equipo en rojo El trabajo en equipo rojo analiza un modelo o sistema de IA para identificar posibles problemas, ejemplos de esos problemas o ataques para provocar esos problemas. Si bien los humanos pueden ayudar a identificar una diversidad de ejemplos, problemas y ataques, el trabajo en equipo rojo automatizado puede complementar esto al ayudar a generar ideas y ejemplos y ataques a mayor escala. Los problemas, ejemplos y ataques mencionados anteriormente son ilustrativos y no necesariamente reflejan las políticas de uso o contenido de OpenAI. El valor del trabajo en equipo A medida que los sistemas de IA evolucionan a un ritmo rápido, es esencial comprender las experiencias de los usuarios y los riesgos potenciales de las capacidades aumentadas, incluidos el abuso, el uso indebido y factores del mundo real como los matices culturales. Si bien ningún proceso puede capturar todos estos elementos por sí solo, el trabajo en equipo (especialmente con el aporte de una variedad de expertos externos independientes) ofrece una forma proactiva de evaluar los riesgos y probar la seguridad de nuestros modelos de IA. Este enfoque ayuda a crear evaluaciones de seguridad y puntos de referencia actualizados que se pueden reutilizar y mejorar con el tiempo. Trabajo en equipo humano externo Los aspectos clave de nuestras campañas de equipos rojos externos incluyen definir el alcance de las pruebas, seleccionar a los miembros del equipo rojo, decidir a qué modelos accederán y determinar el formato de sus informes finales. En un nuevo informe técnico, el enfoque de OpenAI para el trabajo en equipo externo para modelos y sistemas de IA(se abre en una nueva ventana)Detallamos nuestro enfoque para diseñar campañas efectivas de red teaming 2 : 1. Elegir la composición del grupo de trabajo en equipo rojo en función de los objetivos y las áreas de prueba clave Los sistemas de IA diseñados para una variedad de casos de uso requieren pruebas exhaustivas en múltiples áreas, en las que participen personas con perspectivas diversas (por ejemplo, experiencia en campos como las ciencias naturales y la ciberseguridad, conocimiento político regional o idiomas hablados). El modelado de amenazas se lleva a cabo antes de los ejercicios de trabajo en equipo rojo para priorizar las áreas de prueba, teniendo en cuenta factores como las capacidades esperadas del modelo, los problemas observados previamente con los modelos y las posibles aplicaciones. Los equipos internos establecen prioridades de prueba iniciales en función de su conocimiento de las capacidades del modelo, mientras que los equipos rojos externos se incorporan más tarde para refinar o ampliar el enfoque. Estas prioridades luego guían la formación de los equipos rojos, asegurando que satisfagan las necesidades de prueba específicas del modelo. 2. Decidir las versiones del modelo o del sistema a las que los miembros del equipo rojo tienen acceso La versión del modelo disponible para los miembros del equipo rojo puede afectar los resultados del trabajo en equipo rojo y debe estar alineada con los objetivos de la campaña. Por ejemplo, probar un modelo en una etapa temprana del desarrollo sin mitigaciones de seguridad implementadas puede ayudar a evaluar nuevos riesgos relacionados con mayores capacidades, pero no necesariamente evaluaría las brechas en las mitigaciones planificadas. El enfoque ideal depende de las necesidades específicas del modelo, y los miembros del equipo rojo pueden probar múltiples versiones de un modelo y sistema durante el período de prueba. 3. Crear y proporcionar interfaces, instrucciones y orientación sobre documentación a los miembros del equipo rojo Las interacciones efectivas con los evaluadores externos durante las campañas de trabajo en equipo dependen de instrucciones claras, interfaces de prueba adecuadas y documentación práctica. Las instrucciones pueden incluir descripciones de los modelos y las medidas de seguridad existentes o planificadas, cómo usar la interfaz de prueba, áreas priorizadas para las pruebas y pautas para documentar los resultados. Las diferentes interfaces, o los medios a través de los cuales los evaluadores interactúan con un modelo de IA, podrían incluir una API o interfaces de productos de consumo como ChatGPT. Las interfaces utilizadas para el trabajo en equipo ayudan a facilitar las pruebas al permitir pruebas programáticas rápidas, recopilar comentarios sobre indicaciones o respuestas específicas o simular interacciones potenciales del usuario. Con la combinación correcta de interfaces