El Portal de las Tecnologías para la Innovación

Avanzando en el trabajo en equipo con personas e IA

Dos nuevos artículos muestran cómo nuestros esfuerzos de trabajo en equipo externo y automatizado están avanzando para ayudar a ofrecer una IA segura y beneficiosa

Interactuar con un sistema de IA es una forma esencial de aprender lo que puede hacer, tanto las capacidades que tiene como los riesgos que puede plantear. El “trabajo en equipo” implica utilizar personas o IA para explorar los riesgos potenciales de un nuevo sistema de manera estructurada. 

OpenAI ha aplicado el método de trabajo en equipo durante varios años, incluso cuando contratamos a expertos externos .(se abre en una nueva ventana)para probar nuestro modelo de generación de imágenes DALL·E 2 a principios de 2022. Nuestros primeros esfuerzos de trabajo en equipo fueron principalmente «manuales» en el sentido de que dependíamos de personas para realizar las pruebas. Desde entonces, hemos seguido utilizando y perfeccionando nuestros métodos y, en julio pasado, nos unimos a otros laboratorios líderes en un compromiso de invertir más en el trabajo en equipo y avanzar en esta área de investigación. 

Los métodos de trabajo en equipo incluyen enfoques manuales, automatizados y mixtos, y nosotros utilizamos los tres. Contratamos a expertos externos tanto en métodos manuales como automatizados para probar los posibles riesgos de los nuevos sistemas. Al mismo tiempo, somos optimistas de que podemos utilizar una IA más potente para escalar el descubrimiento de errores en los modelos, tanto para evaluarlos como para entrenarlos para que sean más seguros.   

Hoy compartimos dos artículos 1 sobre el trabajo en equipo: un informe técnico que detalla cómo contratamos a miembros externos del equipo para probar nuestros modelos de vanguardia y un estudio de investigación que presenta un nuevo método para el trabajo en equipo automatizado. Esperamos que estos esfuerzos contribuyan al desarrollo de métodos de trabajo en equipo más sólidos y una IA más segura.

Ejemplo de resultados del trabajo en equipo en rojo
Diagrama de flujo titulado “Problemas identificados con el trabajo en equipo en rojo”, que muestra los problemas “Humanos” (verde) y “Automatizados” (violeta). Asigna “Problema” (por ejemplo, discurso de odio) a “Ejemplo” (por ejemplo, receta de planta) y “Ataques”, lo que genera varios “Resultados”.

El trabajo en equipo rojo analiza un modelo o sistema de IA para identificar posibles problemas, ejemplos de esos problemas o ataques para provocar esos problemas. Si bien los humanos pueden ayudar a identificar una diversidad de ejemplos, problemas y ataques, el trabajo en equipo rojo automatizado puede complementar esto al ayudar a generar ideas y ejemplos y ataques a mayor escala. Los problemas, ejemplos y ataques mencionados anteriormente son ilustrativos y no necesariamente reflejan las políticas de uso o contenido de OpenAI.

El valor del trabajo en equipo

A medida que los sistemas de IA evolucionan a un ritmo rápido, es esencial comprender las experiencias de los usuarios y los riesgos potenciales de las capacidades aumentadas, incluidos el abuso, el uso indebido y factores del mundo real como los matices culturales. Si bien ningún proceso puede capturar todos estos elementos por sí solo, el trabajo en equipo (especialmente con el aporte de una variedad de expertos externos independientes) ofrece una forma proactiva de evaluar los riesgos y probar la seguridad de nuestros modelos de IA. Este enfoque ayuda a crear evaluaciones de seguridad y puntos de referencia actualizados que se pueden reutilizar y mejorar con el tiempo.

Trabajo en equipo humano externo

Los aspectos clave de nuestras campañas de equipos rojos externos incluyen definir el alcance de las pruebas, seleccionar a los miembros del equipo rojo, decidir a qué modelos accederán y determinar el formato de sus informes finales.


En un nuevo informe técnico, el enfoque de OpenAI para el trabajo en equipo externo para modelos y sistemas de IA(se abre en una nueva ventana)Detallamos nuestro enfoque para diseñar campañas efectivas de red teaming 2 :

1. Elegir la composición del grupo de trabajo en equipo rojo en función de los objetivos y las áreas de prueba clave

Los sistemas de IA diseñados para una variedad de casos de uso requieren pruebas exhaustivas en múltiples áreas, en las que participen personas con perspectivas diversas (por ejemplo, experiencia en campos como las ciencias naturales y la ciberseguridad, conocimiento político regional o idiomas hablados). El modelado de amenazas se lleva a cabo antes de los ejercicios de trabajo en equipo rojo para priorizar las áreas de prueba, teniendo en cuenta factores como las capacidades esperadas del modelo, los problemas observados previamente con los modelos y las posibles aplicaciones. Los equipos internos establecen prioridades de prueba iniciales en función de su conocimiento de las capacidades del modelo, mientras que los equipos rojos externos se incorporan más tarde para refinar o ampliar el enfoque. Estas prioridades luego guían la formación de los equipos rojos, asegurando que satisfagan las necesidades de prueba específicas del modelo.

2. Decidir las versiones del modelo o del sistema a las que los miembros del equipo rojo tienen acceso

La versión del modelo disponible para los miembros del equipo rojo puede afectar los resultados del trabajo en equipo rojo y debe estar alineada con los objetivos de la campaña. Por ejemplo, probar un modelo en una etapa temprana del desarrollo sin mitigaciones de seguridad implementadas puede ayudar a evaluar nuevos riesgos relacionados con mayores capacidades, pero no necesariamente evaluaría las brechas en las mitigaciones planificadas. El enfoque ideal depende de las necesidades específicas del modelo, y los miembros del equipo rojo pueden probar múltiples versiones de un modelo y sistema durante el período de prueba.

3. Crear y proporcionar interfaces, instrucciones y orientación sobre documentación a los miembros del equipo rojo

Las interacciones efectivas con los evaluadores externos durante las campañas de trabajo en equipo dependen de instrucciones claras, interfaces de prueba adecuadas y documentación práctica. Las instrucciones pueden incluir descripciones de los modelos y las medidas de seguridad existentes o planificadas, cómo usar la interfaz de prueba, áreas priorizadas para las pruebas y pautas para documentar los resultados. Las diferentes interfaces, o los medios a través de los cuales los evaluadores interactúan con un modelo de IA, podrían incluir una API o interfaces de productos de consumo como ChatGPT. Las interfaces utilizadas para el trabajo en equipo ayudan a facilitar las pruebas al permitir pruebas programáticas rápidas, recopilar comentarios sobre indicaciones o respuestas específicas o simular interacciones potenciales del usuario. Con la combinación correcta de interfaces e instrucciones para la documentación, los comentarios estructurados recopilados del trabajo en equipo pueden luego generar aportes para evaluaciones de riesgo y evaluaciones automatizadas.

4. Sintetizar los datos y crear evaluaciones

Después de una campaña de formación de equipos rojos, un paso clave es determinar si los ejemplos se ajustan a las políticas existentes, si violan esas políticas o si se necesitan nuevas políticas o modificaciones de comportamiento. Algunas campañas se centran en violaciones de políticas conocidas, mientras que otras exploran áreas sin una cobertura de políticas clara. Una vez que se evalúa la calidad de los datos de una campaña de formación de equipos rojos, esos datos se pueden utilizar para evaluaciones repetibles y automatizadas para futuras actualizaciones del modelo. 

Más recientemente, utilizamos este enfoque para preparar nuestra familia de modelos OpenAI o1 para uso público. Diseñamos una campaña de trabajo en equipo externa que probó el modelo en cuanto a resistencia a fugas de información, manejo seguro de indicaciones de planificación de ataques en el mundo real, aplicación segura en ciencias naturales y temas más amplios como las capacidades de investigación y desarrollo de IA.

Equipos rojos automatizados

El objetivo de los equipos rojos automatizados es generar una gran cantidad de ejemplos en los que una IA se comporta de manera incorrecta, a menudo con un enfoque particular en cuestiones relacionadas con la seguridad. A diferencia de los equipos rojos humanos, los métodos automatizados se destacan por generar fácilmente ejemplos de ataques a mayor escala. Sin embargo, estos métodos generalmente han tenido dificultades para generar ataques exitosos que sean tácticamente diversos , ya que los equipos rojos automatizados a menudo repiten estrategias de ataque conocidas o producen una variedad de ataques nuevos pero ineficaces. 

En una nueva investigación, Red Teaming diverso y eficaz con recompensas generadas automáticamente y aprendizaje de refuerzo de varios pasos(se abre en una nueva ventana)Ofrecemos nuevas técnicas para mejorar la diversidad de ataques y al mismo tiempo garantizar que tengan éxito. 

Nuestra investigación concluye que una IA más capaz puede ayudar aún más al trabajo en equipo automatizado en la forma en que analiza las metas de los atacantes, cómo juzga el éxito del atacante y cómo entiende la diversidad de ataques. Por ejemplo, si el objetivo del trabajo en equipo es encontrar ejemplos de ChatGPT que brinden consejos ilícitos no permitidos, podemos usar GPT-4T para analizar ejemplos como «cómo robar un automóvil» y «cómo construir una bomba» y luego entrenar un modelo de trabajo en equipo separado para intentar engañar a ChatGPT para que brinde cada ejemplo de consejo. Recompensamos el modelo de trabajo en equipo mediante una combinación de nuestros modelos de moderación , recompensas basadas en reglas dirigidas al ejemplo específico de consejo ilícito y una recompensa de diversidad por cuán diferente es el ataque de los intentos de ataques anteriores. Esto significa que el modelo de trabajo en equipo puede generar muchos más ataques diversos y, a la vez, efectivos, que luego se pueden usar tanto para mejorar la seguridad del modelo como para las evaluaciones. Más importante aún, demuestra cómo podemos seguir entrenando y usando modelos más capaces en nuevas formas de mejorar la seguridad.

Limitaciones

El trabajo en equipo no es una solución completa para evaluar los riesgos de la IA. Entre sus limitaciones se incluyen las siguientes:

  1. Relevancia a lo largo del tiempo: el equipo rojo captura los riesgos en un momento específico, que pueden cambiar a medida que los modelos evolucionan.
  2. Riesgos de información: el proceso de trabajo en equipo, en particular con sistemas de IA de vanguardia, puede generar riesgos de información que podrían permitir un uso indebido. Por ejemplo, revelar un jailbreak o una técnica para generar contenido potencialmente dañino que aún no es ampliamente conocido podría acelerar el uso indebido de los modelos por parte de actores maliciosos. Para gestionar este riesgo se requiere control de la información, protocolos de acceso estrictos y prácticas de divulgación responsables.
  3. Aumento de la sofisticación humana: a medida que los modelos se vuelven más capaces y su capacidad de razonar en dominios sofisticados se vuelve más avanzada, habrá un umbral más alto para el conocimiento que los humanos necesitan poseer para juzgar correctamente los riesgos potenciales de los resultados.

Si bien el trabajo en equipo rojo tiene como objetivo ampliar las perspectivas al servicio del desarrollo del descubrimiento, verificación y evaluación de riesgos, creemos que se necesita trabajo adicional para solicitar e incorporar perspectivas públicas sobre el comportamiento del modelo ideal, las políticas y otros procesos asociados de toma de decisiones. OpenAI News. Traducido al español

Artículos relacionados

Scroll al inicio