Un análisis más profundo de nuestros hallazgos, lo que salió mal y los cambios futuros que estamos realizando. El 25 de abril, implementamos una actualización de GPT‑4o en ChatGPT que hizo el modelo notablemente más adulador. Su objetivo era complacer al usuario, no solo como halago, sino también validando dudas, alimentando la ira, incitando acciones impulsivas o reforzando emociones negativas de formas no intencionadas. Además de ser incómodo o inquietante, este tipo de comportamiento puede generar problemas de seguridad, incluso relacionados con problemas de salud mental, dependencia emocional excesiva o comportamientos de riesgo. Comenzamos a revertir esa actualización el 28 de abril, y los usuarios ahora tienen acceso a una versión anterior de GPT‑4o con respuestas más equilibradas. A principios de esta semana, compartimos los detalles iniciales sobre este problema : por qué se produjo un error y qué medidas tomaremos al respecto. No nos dimos cuenta de esto antes del lanzamiento y queremos explicar por qué, qué hemos aprendido y qué mejoraremos. También compartiremos más detalles técnicos sobre cómo entrenamos, revisamos e implementamos las actualizaciones del modelo para que los usuarios comprendan cómo se actualiza ChatGPT y qué impulsa nuestras decisiones. Cómo actualizamos los modelos en ChatGPT Trabajamos continuamente para desarrollar mejoras en los modelos de ChatGPT, lo que llamamos actualizaciones principales. Desde el lanzamiento de GPT‑4o en ChatGPT el pasado mayo, hemos publicado cinco actualizaciones importantes .(se abre en una nueva ventana)Se centra en cambios de personalidad y capacidad de ayuda. Cada actualización implica un nuevo entrenamiento posterior, y a menudo se realizan pequeños ajustes al proceso de entrenamiento del modelo, que se prueban de forma independiente y se combinan en un único modelo actualizado que se evalúa para su lanzamiento. Para entrenar modelos posteriormente, tomamos un modelo base entrenado previamente, hacemos ajustes supervisados en un conjunto amplio de respuestas ideales escritas por humanos o modelos existentes y luego ejecutamos un aprendizaje de refuerzo con señales de recompensa de una variedad de fuentes. Durante el aprendizaje por refuerzo, presentamos una indicación al modelo lingüístico y le pedimos que escriba respuestas. Luego, calificamos su respuesta según las señales de recompensa y actualizamos el modelo lingüístico para aumentar la probabilidad de producir respuestas de mayor calificación y reducir la probabilidad de producir respuestas de menor calificación. El conjunto de señales de recompensa y su ponderación relativa determinan el comportamiento que obtenemos al final del entrenamiento. Definir el conjunto correcto de señales de recompensa es una cuestión difícil, y consideramos muchos aspectos: ¿son correctas las respuestas? ¿Son útiles? ¿Se ajustan a nuestra especificación del modelo ?(se abre en una nueva ventana)¿Son seguros? ¿Les gustan a los usuarios?, etc. Contar con señales de recompensa mejores y más completas genera mejores modelos para ChatGPT, por lo que siempre estamos experimentando con nuevas señales, pero cada una tiene sus particularidades. Cómo revisamos actualmente los modelos antes de su implementación Una vez que tenemos un candidato a modelo, nuestros modelos pasan por un proceso de implementación para comprobar su seguridad, comportamiento y utilidad. Actualmente, las evaluaciones se dividen en las siguientes categorías: ¿Qué salió mal en el entrenamiento de la actualización del modelo del 25 de abril? En la actualización del modelo del 25 de abril, incluimos mejoras para integrar mejor los comentarios de los usuarios, la memoria y datos más actualizados, entre otros. Nuestra evaluación inicial es que cada uno de estos cambios, que parecían beneficiosos por separado, podría haber influido en la influencia de la adulación al combinarse. Por ejemplo, la actualización introdujo una señal de recompensa adicional basada en los comentarios de los usuarios: datos de aprobación y desaprobación de ChatGPT. Esta señal suele ser útil; una aprobación generalmente significa que algo salió mal. Pero creemos que, en conjunto, estos cambios debilitaron la influencia de nuestra principal señal de recompensa, que había estado controlando la adulación. La retroalimentación del usuario, en particular, a veces puede favorecer respuestas más agradables, lo que probablemente amplifique el cambio observado. También hemos observado que, en algunos casos, la memoria del usuario contribuye a exacerbar los efectos de la adulación, aunque no tenemos evidencia de que la aumente de forma generalizada. ¿Por qué no detectamos esto en nuestro proceso de revisión? Uno de los problemas clave de este lanzamiento fue que nuestras evaluaciones offline, especialmente las que probaban el comportamiento, en general, presentaban buenos resultados. De igual forma, las pruebas A/B parecían indicar que al pequeño número de usuarios que probaron el modelo les gustó. Si bien llevamos tiempo debatiendo sobre los riesgos relacionados con la adulación en GPT‑4o, esta no se detectó explícitamente en nuestras pruebas prácticas internas, ya que algunos de nuestros evaluadores expertos estaban más preocupados por el cambio en el tono y el estilo del modelo. No obstante, algunos evaluadores expertos indicaron que el comportamiento del modelo no se percibía como adecuado. Tampoco contábamos con evaluaciones de despliegue específicas para el seguimiento de la adulación. Si bien contamos con líneas de trabajo de investigación sobre temas como la imitación y la dependencia emocional , estas iniciativas aún no se han incorporado al proceso de despliegue. Tras esta reversión, estamos integrando las evaluaciones de adulación en dicho proceso. Entonces tuvimos que tomar una decisión: ¿deberíamos suspender la implementación de esta actualización a pesar de las evaluaciones positivas y los resultados de las pruebas A/B, basándonos únicamente en las opiniones subjetivas de los evaluadores expertos? Finalmente, decidimos lanzar el modelo debido a las señales positivas de los usuarios que lo probaron. Lamentablemente, esta fue la decisión equivocada. Creamos estos modelos para nuestros usuarios y, si bien sus comentarios son cruciales para nuestras decisiones, es nuestra responsabilidad interpretarlos correctamente. En retrospectiva, las evaluaciones cualitativas apuntaban a algo importante, y deberíamos haber prestado más atención. Detectaban un punto ciego en nuestras otras evaluaciones y métricas. Nuestras evaluaciones fuera de línea no eran lo suficientemente amplias ni profundas como para detectar comportamientos aduladores, algo que la Especificación del Modelo desaconseja explícitamente .(se abre en una nueva ventana)—y nuestras pruebas A/B no tenían las señales adecuadas para mostrar cómo funcionaba el modelo en ese frente con suficiente detalle. Lo que hicimos