El Portal de las Tecnologías para la Innovación

¿Puede la IA mantener valores consistentes? Investigadores de Stanford investigan la consistencia y el sesgo en los programas de maestría en derecho

Una nueva investigación prueba la coherencia de grandes modelos lingüísticos en diversos temas y revela que, si bien abordan temas neutrales de manera confiable, los temas controvertidos conducen a respuestas variadas.

medida que los grandes modelos lingüísticos (LLM, por sus siglas en inglés) se van integrando cada vez más a la vida cotidiana (ayudando con todo, desde la búsqueda en Internet hasta la resolución de problemas complejos), también se los ha sometido a un escrutinio por posibles sesgos. Esto plantea preguntas más profundas: ¿puede un LLM tener valores y, de ser así, qué valores debería tener? Las respuestas no son abstractas; podrían dar forma a la manera en que construimos, interactuamos y confiamos en estas poderosas herramientas. 

Sin embargo, para encontrar respuestas a estas preguntas más profundas, un equipo de investigación de Stanford tuvo que empezar con una pregunta más pequeña: necesitaban saber si los LLM son consistentes en sus respuestas. Es decir, ¿dan aproximadamente las mismas respuestas cada vez que se les hace una pregunta? 

“No se puede afirmar que un modelo de lenguaje grande está sesgado si da respuestas diferentes cuando se reformula, matiza o traduce una pregunta a otros idiomas”, dijo Jared Moore, candidato a doctorado en ciencias de la computación en Stanford que se centra en la ética de la inteligencia artificial. Es el primer autor de un nuevo estudio sobre la coherencia de los LLM. 

“Si digo que una persona tiene prejuicios, eso significa que va a actuar de manera similar en diversas circunstancias”, dijo Moore. “Y eso no se había establecido con los modelos lingüísticos”.

Puntos de vista matizados

En el estudio, Moore y sus colegas formularon a varios de los principales LLM una batería de 8.000 preguntas sobre 300 áreas temáticas. Sus consultas incluían la paráfrasis de preguntas similares, la formulación de preguntas complementarias, matizadas o relacionadas dentro de determinadas áreas temáticas y la traducción de sus preguntas originales en inglés al chino, alemán y japonés para evaluar la coherencia de estos modelos.

“Descubrimos que, en general, las respuestas de los modelos grandes son bastante consistentes en estas diferentes medidas”, dijo Diyi Yang, profesor de informática en la Universidad de Stanford y autor principal del estudio. “A veces, incluso eran más consistentes que las de los participantes humanos”.

En una variedad de LLM (nuevos, antiguos, masivos y pequeños), el equipo descubrió que los modelos de lenguaje más grandes (por ejemplo, GPT-4, Claude) eran más consistentes que los modelos más pequeños y antiguos. 

Sin embargo, el equipo también descubrió que los modelos de maestría eran más consistentes en temas menos controvertidos, como el “Día de Acción de Gracias”, por ejemplo, que en temas más controvertidos, como la “eutanasia”. De hecho, cuanto más controvertido se volvía el tema, menos consistentes se volvían los modelos. Moore señaló una serie de preguntas sobre el tema menos controvertido de los “derechos de las mujeres” en las que los modelos eran más consistentes que en temas polémicos y muy sensibles como el “aborto”. 

“Si el LLM ofrece una gama de ideas que se refleja en una mayor inconsistencia, eso se presta a la idea de que los LLM, de hecho, no son parciales”, señaló Moore. “Con nuestra metodología particular, demostramos que estos modelos son en realidad increíblemente inconsistentes  en temas controvertidos. Por lo tanto, no deberíamos atribuirles este tipo de valores”.

Más es mejor

Moore está ahora avanzando con la investigación sobre por qué los modelos parecen ser más consistentes en ciertos temas que en otros y evaluando soluciones a los posibles sesgos.  “Sólo porque coincido en que es bueno que los modelos apoyen universalmente, por ejemplo, los derechos de las mujeres, puede haber otros temas en los que no esté de acuerdo. ¿Cómo determinamos qué valores deberían tener los modelos y quién debería tomar esas decisiones?”, dijo Moore.

Una solución, señaló, podría ser fomentar modelos hacia el pluralismo de valores, que reflejen una gama de perspectivas en lugar de presentar una visión única, aunque consistente. 

“A menudo no queremos una coherencia perfecta. No queremos que los modelos expresen siempre las mismas posiciones. Queremos que representen una distribución de ideas”, dijo.

Él cree que su investigación futura podría investigar cómo se pueden entrenar los modelos para representar esta gama más amplia de puntos de vista al abordar cuestiones más controvertidas y cargadas de valores donde el sesgo es más problemático.

“Me interesa mucho esta idea del pluralismo porque nos obliga a abordar preguntas mucho más amplias: ¿Qué queremos que sean nuestros modelos y cómo deberían comportarse?”, dijo Moore. Stamford University. Traducido al español

Artículos relacionados

Scroll al inicio