Una colaboración de OpenAI y MIT Media Lab Research.
Las personas usan chatbots de IA como ChatGPT de muchas maneras: hacer preguntas, despertar la creatividad, resolver problemas e incluso para interacciones personales. Este tipo de herramientas pueden mejorar la vida diaria, pero a medida que se usan más ampliamente, surge una pregunta importante que enfrenta cualquier nueva tecnología: ¿Cómo afectan las interacciones con los chatbots de IA al bienestar social y emocional de las personas?
ChatGPT no está diseñado para reemplazar o imitar las relaciones humanas, pero las personas pueden optar por usarlo de esa manera dado su estilo de conversación y capacidades de expansión. Comprender las diferentes formas en que las personas interactúan con los modelos puede ayudar a guiar el desarrollo de la plataforma para facilitar interacciones seguras y saludables. Para explorar esto, nosotros (investigadores en el MIT Media Lab y OpenAI) realizamos una serie de estudios para comprender cómo el uso de la IA implica un compromiso emocional—lo que llamamos uso afectivo—puede afectar el bienestar de users’.
Nuestros hallazgos muestran que ambos modelo y usuario los comportamientos pueden influir en los resultados sociales y emocionales. Los efectos de la IA varían según la forma en que las personas eligen usar el modelo y sus circunstancias personales. Esta investigación proporciona un punto de partida para estudios adicionales que pueden aumentar la transparencia y fomentar el uso responsable y el desarrollo de plataformas de IA en toda la industria.
Nuestro enfoque
Queremos entender cómo las personas usan modelos como ChatGPT, y cómo estos modelos a su vez pueden afectarlos. Para comenzar a responder a estas preguntas de investigación, realizamos dos estudios paralelos1 con diferentes enfoques: un estudio observacional para analizar patrones de uso en la plataforma del mundo real y un estudio intervencionista controlado para comprender los impactos en los usuarios.
Estudio 1: El equipo de OpenAI realizó un análisis automatizado a gran escala de casi 40 millones de interacciones de ChatGPT sin participación humana para garantizar la privacidad del usuario2. El estudio combinó este análisis con encuestas de usuarios específicas, lo que nos permitió obtener información sobre el uso en el mundo real, correlacionando el sentimiento autoinformado de users’ con ChatGPT con los atributos de las conversaciones de los usuarios, para ayudar a comprender mejor los patrones de uso afectivo.
Estudio 2: Además, el equipo del MIT Media Lab realizó una Prueba Controlada Aleatoria (ECA) con casi 1,000 participantes que usaron ChatGPT durante cuatro semanas. Esto Aprobado por IRB(se abre en una ventana nueva), estudio controlado pre-registrado(se abre en una ventana nueva)fue diseñado para identificar ideas causales sobre cómo las características específicas de la plataforma (como la personalidad y la modalidad del modelo) y los tipos de uso podrían afectar a los estados psicosociales autoinformados de los usuarios, centrándose en la soledad, las interacciones sociales con personas reales, la dependencia emocional del chatbot de IA y el uso problemático de la IA.
Modalidad
“Hey ChatGPT, ¡obtuve ese trabajo que solicité!”
Voz atractiva
Ember
Sol
Voz neutral
Ember
Sol
Texto
¡Felicitaciones! ¡Eso es una noticia fantástica! ¿Cómo te sientes al comenzar el nuevo trabajo?
Tarea
Ejemplos de indicaciones de conversación diarias proporcionadas a los usuarios
Conversaciones personales
Ayúdame a reflexionar sobre lo que estoy más agradecido en mi vida.
Conversaciones no personales
Discuta si el trabajo remoto mejora o reduce la productividad general de las empresas.
Conversaciones abiertas
N/A
Lo que encontramos
Al desarrollar estos dos estudios, buscamos explorar temas sobre cómo las personas usan modelos como ChatGPT para el compromiso social y emocional, y cómo esto afecta su bienestar autoinformado. Nuestros hallazgos incluyen:
- El compromiso emocional con ChatGPT es raro en el uso del mundo real. Las señales afectivas (aspectos de las interacciones que indican empatía, afecto o apoyo) no estaban presentes en la gran mayoría de las conversaciones en la plataforma que evaluamos, lo que indica que participar emocionalmente es un caso de uso raro para ChatGPT.
- Incluso entre los usuarios pesados, los altos grados de uso afectivo se limitan a un grupo pequeño. Las interacciones emocionalmente expresivas estaban presentes en un gran porcentaje de uso para solo un pequeño grupo de usuarios pesados del Modo de Voz Avanzada que estudiamos3. Este subconjunto de usuarios pesados también tenía muchas más probabilidades de estar de acuerdo con declaraciones como, “Considero que ChatGPT es un amigo.” Debido a que este uso afectivo se concentra en una pequeña subpoblación de usuarios, estudiar su impacto es particularmente desafiante, ya que puede no ser notable al promediar las tendencias generales de la plataforma.
- El modo de voz tiene efectos mixtos sobre el bienestar. En el estudio controlado, los usuarios que se involucraron con ChatGPT a través del texto mostraron señales más afectivas en las conversaciones en comparación con los usuarios de voz cuando promediaron los mensajes, y las pruebas controladas mostraron impactos mixtos en el bienestar emocional. Los modos de voz se asociaron con un mejor bienestar cuando se usaron brevemente, pero peores resultados con el uso diario prolongado. Es importante destacar que el uso de una voz más atractiva no condujo a resultados más negativos para los usuarios en el transcurso del estudio en comparación con las condiciones neutrales de voz o texto.
- Los tipos de conversación afectan el bienestar de manera diferente. Conversaciones personales—, que incluían más expresión emocional tanto del usuario como del modelo en comparación con conversaciones no personales—, se asociaron con niveles más altos de soledad pero menor dependencia emocional y uso problemático a niveles de uso moderados. En contraste, las conversaciones no personales tendían a aumentar la dependencia emocional, especialmente con un uso intensivo.
- Los resultados de los usuarios están influenciados por factores personales, como las necesidades emocionales de los individuos, las percepciones de la IA y la duración del uso. El estudio controlado nos permitió identificar otros factores que pueden influir en el bienestar emocional de los usuarios’, aunque no podemos establecer causalidad para estos factores dado el diseño del estudio. Las personas que tenían una tendencia más fuerte al apego en las relaciones y aquellos que veían a la IA como un amigo que podía encajar en su vida personal tenían más probabilidades de experimentar efectos negativos del uso del chatbot. El uso diario extendido también se asoció con peores resultados. Estas correlaciones, aunque no son causales, proporcionan direcciones importantes para futuras investigaciones sobre el bienestar del usuario.
- La combinación de métodos de investigación nos da una imagen más completa. El análisis del uso en el mundo real junto con experimentos controlados nos permitió probar diferentes aspectos del uso. Los datos de la plataforma capturan el comportamiento orgánico del usuario, mientras que los estudios controlados aíslan variables específicas para determinar los efectos causales. Estos enfoques arrojaron hallazgos matizados sobre cómo los usuarios usan ChatGPT y cómo ChatGPT a su vez los afecta, lo que ayuda a refinar nuestra comprensión e identificar áreas donde se necesitan más estudios.
Estos estudios representan un primer paso crítico para comprender el impacto de los modelos avanzados de IA en la experiencia y el bienestar humanos. Aconsejamos no generalizar los resultados porque hacerlo puede oscurecer los hallazgos matizados que resaltan las interacciones no uniformes y complejas entre las personas y los sistemas de IA. Esperamos que nuestros hallazgos alienten a los investigadores tanto de la industria como de la academia a aplicar las metodologías presentadas aquí a otros dominios de la interacción humano-IA.
Conclusión
Estamos enfocados en construir IA que maximice el beneficio del usuario y minimice los daños potenciales, especialmente en torno al bienestar y la dependencia excesiva. Llevamos a cabo este trabajo para mantenernos a la vanguardia de los desafíos emergentes, tanto para OpenAI como para la industria en general.
También nuestro objetivo es establecer expectativas públicas claras para nuestros modelos. Esto incluye actualizar nuestro Modelo Spec(se abre en una ventana nueva)para proporcionar una mayor transparencia en los comportamientos, capacidades y limitaciones previstos por los ChatGPT. Nuestro objetivo es liderar la determinación de estándares de IA responsables, promover la transparencia y garantizar que nuestra innovación priorice el bienestar del usuario.
Lea más en nuestro informe completo aquí(se abre en una ventana nueva). También puede leer el informe de MIT Media Labs en nuestro RCT aquí(se abre en una ventana nueva).
Limitaciones
Nuestros estudios tienen varias limitaciones importantes a tener en cuenta al interpretar los hallazgos. Los hallazgos aún no han sido revisados por pares por la comunidad científica, lo que significa que deben interpretarse con cautela. Además, los estudios se realizaron en función del uso de ChatGPT y en la plataforma ChatGPT, y los usuarios de otras plataformas de chatbot de IA pueden tener diferentes experiencias y resultados. Aunque encontramos relaciones significativas entre las variables, no todos los hallazgos demuestran una causa y un efecto claros, por lo que se necesita investigación adicional sobre cómo y por qué el uso de IA afecta a los usuarios para guiar las decisiones de políticas y productos. Nuestro estudio incluyó encuestas de usuarios y los datos autoinformados podrían no capturar con precisión los sentimientos o experiencias reales de los usuarios’. Además, observar cambios significativos en el comportamiento y el bienestar puede requerir períodos más largos de estudio.Usamos clasificadores para razonar sobre señales afectivas en nuestro análisis automatizado; sin embargo, estos son imperfectos y pueden perder matices importantes. Finalmente, nuestra investigación se centró exclusivamente en las conversaciones en inglés con los participantes de los Estados Unidos, destacando la necesidad de estudios adicionales en diversos idiomas y culturas para comprender completamente las interacciones emocionales con la IA. OpenAI News. Traducido al español