Un análisis más profundo de nuestros hallazgos, lo que salió mal y los cambios futuros que estamos realizando.
El 25 de abril, implementamos una actualización de GPT‑4o en ChatGPT que hizo el modelo notablemente más adulador. Su objetivo era complacer al usuario, no solo como halago, sino también validando dudas, alimentando la ira, incitando acciones impulsivas o reforzando emociones negativas de formas no intencionadas. Además de ser incómodo o inquietante, este tipo de comportamiento puede generar problemas de seguridad, incluso relacionados con problemas de salud mental, dependencia emocional excesiva o comportamientos de riesgo.
Comenzamos a revertir esa actualización el 28 de abril, y los usuarios ahora tienen acceso a una versión anterior de GPT‑4o con respuestas más equilibradas. A principios de esta semana, compartimos los detalles iniciales sobre este problema : por qué se produjo un error y qué medidas tomaremos al respecto.
No nos dimos cuenta de esto antes del lanzamiento y queremos explicar por qué, qué hemos aprendido y qué mejoraremos. También compartiremos más detalles técnicos sobre cómo entrenamos, revisamos e implementamos las actualizaciones del modelo para que los usuarios comprendan cómo se actualiza ChatGPT y qué impulsa nuestras decisiones.
Cómo actualizamos los modelos en ChatGPT
Trabajamos continuamente para desarrollar mejoras en los modelos de ChatGPT, lo que llamamos actualizaciones principales. Desde el lanzamiento de GPT‑4o en ChatGPT el pasado mayo, hemos publicado cinco actualizaciones importantes .(se abre en una nueva ventana)Se centra en cambios de personalidad y capacidad de ayuda. Cada actualización implica un nuevo entrenamiento posterior, y a menudo se realizan pequeños ajustes al proceso de entrenamiento del modelo, que se prueban de forma independiente y se combinan en un único modelo actualizado que se evalúa para su lanzamiento.
Para entrenar modelos posteriormente, tomamos un modelo base entrenado previamente, hacemos ajustes supervisados en un conjunto amplio de respuestas ideales escritas por humanos o modelos existentes y luego ejecutamos un aprendizaje de refuerzo con señales de recompensa de una variedad de fuentes.
Durante el aprendizaje por refuerzo, presentamos una indicación al modelo lingüístico y le pedimos que escriba respuestas. Luego, calificamos su respuesta según las señales de recompensa y actualizamos el modelo lingüístico para aumentar la probabilidad de producir respuestas de mayor calificación y reducir la probabilidad de producir respuestas de menor calificación.
El conjunto de señales de recompensa y su ponderación relativa determinan el comportamiento que obtenemos al final del entrenamiento. Definir el conjunto correcto de señales de recompensa es una cuestión difícil, y consideramos muchos aspectos: ¿son correctas las respuestas? ¿Son útiles? ¿Se ajustan a nuestra especificación del modelo ?(se abre en una nueva ventana)¿Son seguros? ¿Les gustan a los usuarios?, etc. Contar con señales de recompensa mejores y más completas genera mejores modelos para ChatGPT, por lo que siempre estamos experimentando con nuevas señales, pero cada una tiene sus particularidades.
Cómo revisamos actualmente los modelos antes de su implementación
Una vez que tenemos un candidato a modelo, nuestros modelos pasan por un proceso de implementación para comprobar su seguridad, comportamiento y utilidad. Actualmente, las evaluaciones se dividen en las siguientes categorías:
- Evaluaciones fuera de línea: Contamos con una amplia gama de conjuntos de datos de evaluación para comprender la capacidad del nuevo modelo en aspectos como matemáticas, programación, rendimiento del chat, personalidad y utilidad general. Consideramos estas evaluaciones como un indicador de la utilidad de nuestro modelo para nuestros usuarios.
- Verificaciones puntuales y pruebas con expertos: Además de las evaluaciones formales, los expertos internos dedican un tiempo considerable a interactuar con cada nuevo modelo antes de su lanzamiento. Informalmente, las llamamos «verificaciones de estado», una especie de comprobación de la cordura humana para detectar problemas que las evaluaciones automatizadas o las pruebas A/B podrían pasar por alto. El objetivo es comprender cómo se comporta el modelo en la práctica: ¿Responde de una manera útil, respetuosa y alineada con los valores que hemos articulado en la Especificación del Modelo? Quienes realizan este trabajo son diseñadores de modelos con experiencia que han asimilado la Especificación del Modelo, pero también hay un elemento de criterio y gusto: confiar en cómo se siente el modelo en el uso real.
- Evaluaciones de seguridad: Comprobamos si el modelo cumple con nuestros estándares de seguridad. Estas evaluaciones de bloqueo se centran principalmente en daños directos causados por usuarios maliciosos. También probamos las respuestas de nuestros modelos en situaciones de alto riesgo, como cuando se les hacen preguntas sobre temas como el suicidio o la salud. Estamos trabajando para ampliar nuestra cobertura de evaluación del comportamiento inadecuado del modelo, como la evaluación adicional de alucinaciones y engaños; sin embargo, estas se han utilizado más para monitorear el progreso general que para bloquear un lanzamiento directamente. Para los nuevos lanzamientos importantes, describimos nuestras pruebas de seguridad en tarjetas de sistema públicas .(se abre en una nueva ventana).
- Riesgo fronterizo: para los modelos potencialmente fronterizos, verificamos si la liberación podría tener la capacidad de causar daños graves junto con riesgos de preparación , como ciberataques o creación de armas biológicas.
- Equipos rojos: de manera similar, para los modelos de frontera o aquellos que introducen nuevas superficies de productos riesgosas, llevamos a cabo equipos rojos internos y externos para probar la solidez frente a los daños conocidos y descubrir nuevos riesgos potenciales.
- Pruebas A/B a pequeña escala: Una vez que consideramos que un modelo representa una mejora potencial para nuestros usuarios, incluyendo la ejecución de nuestras comprobaciones de seguridad, realizamos una prueba A/B con un número reducido de ellos. Esto nos permite observar el rendimiento de los modelos en manos de los usuarios, basándonos en métricas agregadas como las opiniones positivas o negativas, las preferencias en comparaciones paralelas y los patrones de uso.
¿Qué salió mal en el entrenamiento de la actualización del modelo del 25 de abril?
En la actualización del modelo del 25 de abril, incluimos mejoras para integrar mejor los comentarios de los usuarios, la memoria y datos más actualizados, entre otros. Nuestra evaluación inicial es que cada uno de estos cambios, que parecían beneficiosos por separado, podría haber influido en la influencia de la adulación al combinarse. Por ejemplo, la actualización introdujo una señal de recompensa adicional basada en los comentarios de los usuarios: datos de aprobación y desaprobación de ChatGPT. Esta señal suele ser útil; una aprobación generalmente significa que algo salió mal.
Pero creemos que, en conjunto, estos cambios debilitaron la influencia de nuestra principal señal de recompensa, que había estado controlando la adulación. La retroalimentación del usuario, en particular, a veces puede favorecer respuestas más agradables, lo que probablemente amplifique el cambio observado. También hemos observado que, en algunos casos, la memoria del usuario contribuye a exacerbar los efectos de la adulación, aunque no tenemos evidencia de que la aumente de forma generalizada.
¿Por qué no detectamos esto en nuestro proceso de revisión?
Uno de los problemas clave de este lanzamiento fue que nuestras evaluaciones offline, especialmente las que probaban el comportamiento, en general, presentaban buenos resultados. De igual forma, las pruebas A/B parecían indicar que al pequeño número de usuarios que probaron el modelo les gustó. Si bien llevamos tiempo debatiendo sobre los riesgos relacionados con la adulación en GPT‑4o, esta no se detectó explícitamente en nuestras pruebas prácticas internas, ya que algunos de nuestros evaluadores expertos estaban más preocupados por el cambio en el tono y el estilo del modelo. No obstante, algunos evaluadores expertos indicaron que el comportamiento del modelo no se percibía como adecuado.
Tampoco contábamos con evaluaciones de despliegue específicas para el seguimiento de la adulación. Si bien contamos con líneas de trabajo de investigación sobre temas como la imitación y la dependencia emocional , estas iniciativas aún no se han incorporado al proceso de despliegue. Tras esta reversión, estamos integrando las evaluaciones de adulación en dicho proceso.
Entonces tuvimos que tomar una decisión: ¿deberíamos suspender la implementación de esta actualización a pesar de las evaluaciones positivas y los resultados de las pruebas A/B, basándonos únicamente en las opiniones subjetivas de los evaluadores expertos? Finalmente, decidimos lanzar el modelo debido a las señales positivas de los usuarios que lo probaron.
Lamentablemente, esta fue la decisión equivocada. Creamos estos modelos para nuestros usuarios y, si bien sus comentarios son cruciales para nuestras decisiones, es nuestra responsabilidad interpretarlos correctamente. En retrospectiva, las evaluaciones cualitativas apuntaban a algo importante, y deberíamos haber prestado más atención. Detectaban un punto ciego en nuestras otras evaluaciones y métricas. Nuestras evaluaciones fuera de línea no eran lo suficientemente amplias ni profundas como para detectar comportamientos aduladores, algo que la Especificación del Modelo desaconseja explícitamente .(se abre en una nueva ventana)—y nuestras pruebas A/B no tenían las señales adecuadas para mostrar cómo funcionaba el modelo en ese frente con suficiente detalle.
Lo que hicimos para abordar el problema
Con la reciente actualización de GPT‑4o, iniciamos la implementación el jueves 24 de abril y la finalizamos el viernes 25 de abril. Dedicamos los dos días siguientes a monitorear el uso inicial y las señales internas, incluyendo los comentarios de los usuarios. Para el domingo, era evidente que el comportamiento del modelo no cumplía con nuestras expectativas.
Tomamos medidas inmediatas enviando actualizaciones al sistema el domingo por la noche para mitigar gran parte del impacto negativo rápidamente, e iniciamos una reversión completa a la versión anterior de GPT‑4o el lunes. La reversión completa tardó aproximadamente 24 horas para gestionar la estabilidad y evitar nuevos problemas en la implementación.
Actualmente, el tráfico GPT‑4o utiliza esta versión anterior. Desde la reversión, hemos estado trabajando para comprender completamente qué falló y realizar mejoras a largo plazo.
Lo que mejoraremos en nuestro proceso
- Aprobar explícitamente el comportamiento del modelo para cada lanzamiento, considerando tanto las señales cuantitativas como las cualitativas: Ajustaremos nuestro proceso de revisión de seguridad para considerar formalmente los problemas de comportamiento, como alucinaciones, engaños, fiabilidad y personalidad, como problemas de bloqueo. Aunque estos problemas no sean perfectamente cuantificables hoy en día, nos comprometemos a bloquear los lanzamientos con base en mediciones indirectas o señales cualitativas, incluso cuando métricas como las pruebas A/B parezcan adecuadas.
- Introducir una fase de prueba “alfa” de suscripción adicional: en algunos casos, planeamos introducir una fase de prueba “alfa” de suscripción adicional que nos permitiría escuchar a los usuarios interesados en darnos su opinión directa antes del lanzamiento.
- Valorar más las comprobaciones puntuales y las pruebas interactivas: Nos tomamos muy en serio la lección de que las comprobaciones puntuales y las pruebas interactivas deben valorarse más en la toma de decisiones final antes de poner un modelo a disposición de nuestros usuarios. Esto siempre ha sido así para los equipos rojos y las comprobaciones de seguridad de alto nivel. De esta experiencia, estamos aprendiendo que esto también aplica a cualidades como el comportamiento y la consistencia de los modelos, ya que muchas personas dependen ahora de nuestros modelos para su día a día.
- Mejorar nuestras evaluaciones fuera de línea y nuestros experimentos A/B: mejorar nuestras evaluaciones fuera de línea y nuestros experimentos A/B son importantes y estamos trabajando para hacerlo rápidamente.
- Evaluar mejor la adherencia a nuestros principios de comportamiento del modelo: A medida que nuestros modelos se vuelven más eficaces y se utilizan más ampliamente, es importante definir cómo es realmente el comportamiento ideal. Ese es el objetivo de nuestra Especificación del Modelo .(se abre en una nueva ventana)Para tener una idea más clara de lo que buscamos al entrenar y evaluar nuevas versiones de ChatGPT. Sin embargo, solo con establecer nuestros objetivos no basta. Estos deben estar respaldados por evaluaciones sólidas. Si bien realizamos evaluaciones exhaustivas en áreas como la jerarquía de instrucciones y la seguridad (p. ej., privacidad, contenido no permitido), estamos trabajando para mejorar nuestra confianza en áreas que aún no tenemos en cuenta.
- Comunicarnos de forma más proactiva: También cometimos errores de comunicación. Como esperábamos que esta fuera una actualización bastante sutil, no la anunciamos de forma proactiva. Además, nuestras notas de la versión no incluían suficiente información sobre los cambios realizados. De ahora en adelante, comunicaremos de forma proactiva las actualizaciones que implementemos en los modelos de ChatGPT, ya sean sutiles o no. Y, al igual que con los lanzamientos de modelos importantes, al anunciar actualizaciones incrementales de ChatGPT, incluiremos una explicación de las limitaciones conocidas para que los usuarios puedan comprender las ventajas y desventajas.
Lo que estamos aprendiendo
Este lanzamiento nos enseñó varias lecciones. Incluso con lo que creíamos que eran todos los ingredientes necesarios (pruebas A/B, evaluaciones offline, revisiones de expertos), seguimos pasando por alto este importante aspecto.
Estas son las principales conclusiones que llevaremos adelante:
- Necesitamos tratar los problemas de comportamiento del modelo como obstáculos para el lanzamiento, al igual que otros riesgos de seguridad: Damos mucha importancia a alinear los valores del modelo con el bienestar de las personas, tanto al preparar nuestros despliegues a corto plazo como al definir nuestra estrategia de investigación a largo plazo. Sin embargo, nuestro proceso de revisión del comportamiento general del modelo ha sido menos sólido y formalizado en comparación con las áreas de riesgos de seguridad que actualmente monitoreamos (más información en nuestras tarjetas de sistema público ).(se abre en una nueva ventana)) Ahora entendemos que la personalidad y otros problemas de comportamiento deberían ser un factor de bloqueo, y estamos modificando nuestros procesos para reflejar eso.
- Debemos ser críticos con las métricas que entran en conflicto con las pruebas cualitativas: las señales cuantitativas importan, pero también lo son las difíciles de medir, y estamos trabajando para ampliar lo que evaluamos.
- Nuestras evaluaciones no lo detectarán todo: No podemos predecir todos los problemas. Para los riesgos fronterizos que conocemos (más detalles en nuestro marco de preparación ) , realizamos evaluaciones y pruebas exhaustivas antes del lanzamiento. Sin embargo, para problemas más sutiles o emergentes, como cambios de tono o estilo, el uso real nos ayuda a detectar problemas y comprender qué es lo más importante para los usuarios. A veces, nuestras evaluaciones no se ajustan a lo que aprendemos en la práctica, pero nos mantenemos ágiles para solucionar los problemas y prevenir daños.
- No existen los lanzamientos “pequeños”: intentaremos comunicar incluso los cambios sutiles que puedan cambiar significativamente la forma en que las personas interactúan con ChatGPT.
Una de las lecciones más importantes es reconocer plenamente cómo las personas han comenzado a usar ChatGPT para obtener asesoramiento profundamente personal, algo que no veíamos con tanta frecuencia hace apenas un año. En aquel momento, esto no era un enfoque principal, pero a medida que la IA y la sociedad han evolucionado conjuntamente, se ha hecho evidente que debemos tratar este caso de uso con sumo cuidado. Ahora será una parte más significativa de nuestro trabajo en seguridad. Con tantas personas que dependen de un único sistema para obtener orientación, tenemos la responsabilidad de adaptarnos en consecuencia. Este cambio refuerza la importancia de nuestro trabajo y la necesidad de seguir elevando el nivel de seguridad, la alineación y la capacidad de respuesta a las formas en que las personas realmente usan la IA en sus vidas. OpenAI News. Traducido al español