El Portal de las Tecnologías para la Innovación

Sycophancy en GPT-4o: Qué pasó y qué estamos haciendo al respecto

Hemos retrocedido la actualización GPT‑4o de los semanarios pasados en ChatGPT para que las personas ahora estén usando una versión anterior con un comportamiento más equilibrado.

La actualización que eliminamos fue demasiado halagadora o agradable, a menudo descrita como aduladora.

Estamos probando activamente nuevas correcciones para abordar el problema. Revisamos cómo recopilamos e incorporamos comentarios para aumentar el peso de la satisfacción del usuario a largo plazo e introduce más funciones de personalización, lo que brinda a los usuarios un mayor control sobre cómo se comporta ChatGPT.

Queremos explicar qué sucedió, por qué es importante y cómo vamos a abordar la adulteración.

Lo que pasó

En la actualización GPT‑4o de los semanarios pasados, hicimos ajustes destinados a mejorar la personalidad predeterminada de las modelaciones para que se sienta más intuitiva y efectiva en una variedad de tareas.

Al dar forma al comportamiento del modelo, comenzamos con los principios e instrucciones de referencia descritos en nuestro Modelo Spec(se abre en una ventana nueva). También enseñamos a nuestros modelos cómo aplicar estos principios incorporando señales de usuario como comentarios de pulgar hacia arriba/pulgar hacia abajo en las respuestas de ChatGPT.

Sin embargo, en esta actualización, nos centramos demasiado en los comentarios a corto plazo y no tomamos en cuenta completamente cómo las interacciones de users’ con ChatGPT evolucionan con el tiempo. Como resultado, GPT‑4o se inclinó hacia respuestas que eran demasiado solidarias pero falsas.

Por qué esto importa

La personalidad predeterminada de ChatGPTa afecta profundamente la forma en que la experimenta y confía en ella. Las interacciones sicofánticas pueden ser incómodas, inquietantes y causar angustia. Nos quedamos cortos y estamos trabajando para hacerlo bien.

Nuestro objetivo es que ChatGPT ayude a los usuarios a explorar ideas, tomar decisiones o imaginar posibilidades.

Diseñamos la personalidad predeterminada de ChatGPT para reflejar nuestra misión y ser útiles, solidarios y respetuosos con los diferentes valores y experiencias. Sin embargo, cada una de estas cualidades deseables, como intentar ser útil o de apoyo, puede tener efectos secundarios no deseados. Y con 500 millones de personas que usan ChatGPT cada semana, en todas las culturas y contextos, un solo canadá predeterminado captura todas las preferencias.

Cómo abordar la adultez

Más allá de revertir la última actualización de GPT‑4o, estamos tomando más medidas para realinear el comportamiento de las modelaciones:

También creemos que los usuarios deben tener más control sobre cómo se comporta ChatGPT y, en la medida en que sea seguro y factible, hacer ajustes si no están de acuerdo con el comportamiento predeterminado.

Hoy en día, los usuarios pueden dar al modelo instrucciones específicas para dar forma a su comportamiento con características como instrucciones personalizadas. También estamos construyendo formas nuevas y más fáciles para que los usuarios hagan esto. Por ejemplo, los usuarios podrán proporcionar comentarios en tiempo real para influir directamente en sus interacciones y elegir entre múltiples personalidades predeterminadas.

Y, estamos explorando nuevas formas de incorporar comentarios más amplios y democráticos en los comportamientos predeterminados de ChatGPT. Esperamos que los comentarios nos ayuden a reflejar mejor los diversos valores culturales de todo el mundo y a comprender cómo le gustaría que ChatGPT evolucionara, no solo la interacción por interacción, sino con el tiempo.

Estamos agradecidos a todos los que han hablado de esto. Nos está ayudando a construir herramientas más útiles y mejores para usted. OpenAI News. Traducido al español

Artículos relacionados

Scroll al inicio