Una investigación de la EPFL que investiga el impacto potencial de los asistentes de IA en la educación ha descubierto que sistemas como GPT-4 pueden responder correctamente hasta el 85% de las preguntas de evaluación universitaria.
ChatGPT irrumpió en la escena pública a finales de 2022 y atrajo a más de 100 millones de usuarios tan solo en su primer mes. Desde entonces, ha habido cada vez más ejemplos de cómo la IA puede transformar la sociedad en los próximos años, desde el empleo y la comunicación hasta la educación.
En la educación superior, los estudiantes utilizan cada vez más asistentes de inteligencia artificial. Si bien estas herramientas brindan oportunidades para mejorar la enseñanza y la educación, también plantean desafíos importantes para la evaluación y los resultados del aprendizaje. Sin embargo, hasta ahora, no se ha realizado ningún estudio exhaustivo sobre su posible impacto en los métodos de evaluación que utilizan las instituciones educativas.
Como se describe en su nuevo artículo publicado en las Actas de la Academia Nacional de Ciencias (PNAS), los investigadores de la Escuela de Ciencias de la Computación y la Comunicación de la EPFL han llevado a cabo un estudio a gran escala en 50 cursos de la EPFL para medir el desempeño actual de los modelos de lenguaje a gran escala en las evaluaciones de cursos de educación superior. Los cursos seleccionados fueron seleccionados de 9 programas de licenciatura, maestría y en línea, que cubren un amplio espectro de disciplinas STEM, incluidas la informática, las matemáticas, la biología, la química, la física y las ciencias de los materiales.
«Tuvimos suerte de que un gran consorcio de profesores, maestros y asistentes de cátedra de la EPFL nos ayudara a recopilar el mayor conjunto de datos hasta la fecha sobre materiales de cursos, evaluaciones y exámenes para obtener una gama diversa de materiales en todos nuestros programas de grado», explicó el profesor adjunto Antoine Bosselut, director del Laboratorio de Procesamiento del Lenguaje Natural (PLN) y miembro del Centro de IA de la EPFL . «Estos datos se seleccionaron en un formato que pensamos que se asemejaría más a las formas en que los estudiantes realmente darían esta información a los modelos y luego generamos respuestas de los modelos y vimos qué tan bien respondían».
Centrados en GPT-3.5 y GPT-4, los investigadores utilizaron ocho estrategias de estímulo para producir respuestas y descubrieron que GPT-4 responde correctamente a un promedio del 65,8 % de las preguntas e incluso puede producir la respuesta correcta en al menos una estrategia de estímulo para el 85,1 % de las preguntas.
“Nos sorprendieron los resultados, nadie esperaba que los asistentes de inteligencia artificial lograran un porcentaje tan alto de respuestas correctas en tantos cursos. Es importante destacar que el 65% de las preguntas respondidas correctamente se logró utilizando la estrategia más básica, sin necesidad de conocimientos previos, por lo que cualquier persona, sin entender nada técnicamente, podría lograrlo. Con un cierto conocimiento de la materia, lo cual es habitual, fue posible lograr una tasa de éxito del 85% y eso fue realmente una sorpresa”, dijo Anna Sotnikova, científica del NPL y coautora del artículo.
Nos sorprendieron los resultados, nadie esperaba que los asistentes de IA lograran un porcentaje tan alto de respuestas correctas en tantos cursos.Anna Sotnikova, científica del Laboratorio de Procesamiento del Lenguaje Natural
El impacto de la IA en el aprendizaje y el desarrollo de habilidades de los estudiantes
Los investigadores fundamentaron teóricamente los problemas asociados con el uso de estos sistemas de IA por parte de los estudiantes en la vulnerabilidad: por un lado, la vulnerabilidad de la evaluación o si las evaluaciones utilizadas tradicionalmente pueden ser «manipuladas» por estos sistemas y, por otro lado, la vulnerabilidad educativa, es decir, si estos sistemas podrían usarse para eludir los caminos cognitivos típicos que toman los estudiantes para aprender las habilidades académicas que necesitan.
En este contexto, los investigadores creen que los resultados del estudio plantean preguntas claras sobre cómo garantizar que los estudiantes sean capaces de aprender los conceptos básicos necesarios para comprender temas más complejos más adelante.
“El temor es que si estos modelos son tan eficaces como lo que indicamos, los estudiantes que los utilicen podrían acortar el proceso mediante el cual aprenderían nuevos conceptos. Esto podría generar bases más débiles para ciertas habilidades al principio, lo que dificultaría el aprendizaje de conceptos más complejos más adelante. Tal vez sea necesario un debate sobre lo que deberíamos enseñar en primer lugar para lograr las mejores sinergias entre las tecnologías que tenemos y lo que harán los estudiantes en las próximas décadas”, dijo Bosselut.
Otro punto clave del desarrollo de los asistentes de inteligencia artificial es que no van a empeorar, sino que van a mejorar. En esta investigación, que finalizó hace un año, se utilizó un único modelo para todas las asignaturas y, por ejemplo, tuvo problemas especiales con las preguntas de matemáticas. Ahora hay modelos específicos para matemáticas. La conclusión, dicen los investigadores, es que si el estudio se repitiera hoy, las cifras serían aún mayores.
Enfatizar evaluaciones complejas y adaptar la educación
“A corto plazo, deberíamos impulsar evaluaciones más difíciles, no en el sentido de la dificultad de las preguntas, sino en el sentido de la complejidad de la evaluación en sí, donde se deben extraer múltiples habilidades de diferentes conceptos que se aprenden a lo largo del curso durante el semestre y que se combinan en una evaluación holística”, sugirió Bosselut. “Los modelos aún no están realmente diseñados para planificar y trabajar de esta manera y, al final, en realidad creemos que este aprendizaje basado en proyectos es mejor para los estudiantes de todos modos”.
“La IA plantea muchos desafíos a las instituciones de educación superior, por ejemplo: qué nuevas competencias se requieren para los futuros graduados, cuáles se están volviendo obsoletas, cómo podemos proporcionar retroalimentación a gran escala y cómo medimos el conocimiento. Este tipo de preguntas surgen en casi todas las reuniones de gestión en la EPFL y lo más importante es que nuestros equipos inicien proyectos que proporcionen respuestas basadas en evidencia a tantas como sea posible”, dijo Pierre Dillenbourg, vicepresidente de Asuntos Académicos de la EPFL.
La IA desafía a las instituciones de educación superior de muchas maneras.Pierre Dillenbourg, Vicepresidente de Asuntos Académicos de la EPFL
A largo plazo, está claro que los sistemas educativos necesitarán adaptarse y los investigadores quieren acercar este proyecto en curso a los educadores, alineando los estudios y luego las recomendaciones con lo que encontrarán útil.
“Esto es solo el comienzo y creo que una buena analogía con los LLM actuales son las calculadoras, cuando se introdujeron, ya que existían preocupaciones similares de que los niños ya no aprenderían matemáticas. Ahora, en las primeras etapas de la educación, las calculadoras generalmente no están permitidas, pero en la escuela secundaria y en etapas superiores, se espera que se utilicen, ya que se encargan de los trabajos de nivel inferior mientras los estudiantes aprenden habilidades más avanzadas que dependen de ellas”, agregó Beatriz Borges, estudiante de doctorado en PNL y coautora del artículo.
«Creo que veremos una adaptación gradual similar y un cambio hacia una comprensión tanto de lo que estos sistemas pueden hacer por nosotros como de lo que no podemos confiar en que hagan. En última instancia, incluimos sugerencias prácticas para apoyar mejor a los estudiantes, maestros, administradores y todos los demás durante esta transición, al tiempo que ayudamos a reducir algunos de los riesgos y vulnerabilidades descritos en el documento», concluyó.
El Centro de IA de la EPFL reúne a 80 laboratorios y profesores y tiene 1000 afiliados, liderando el camino hacia una IA confiable, accesible e inclusiva . EPFL News. T. P. Traducido al español