El chatbot de Inteligencia Artificial, ChatGPT, pareció improvisar ideas y cometer errores como un estudiante en un estudio que reinició un desafío matemático de 2.400 años de antigüedad.
El experimento, realizado por dos investigadores educativos, pidió al chatbot que resolviera una versión del problema de «duplicar el cuadrado», una lección descrita por Platón alrededor del año 385 a. C. y, según sugiere el artículo, «quizás el primer experimento documentado en educación matemática». Este enigma desencadenó siglos de debate sobre si el conocimiento está latente en nosotros, esperando ser recuperado, o si es algo que «generamos» a través de la experiencia y los encuentros vividos.
El nuevo estudio exploró una cuestión similar sobre el «conocimiento» matemático de ChatGPT, tal como lo perciben sus usuarios. Los investigadores querían saber si resolvería el problema de Platón utilizando el conocimiento que ya poseía o desarrollando adaptativamente sus propias soluciones.
Platón describe a Sócrates enseñando a un niño sin educación a duplicar el área de un cuadrado. Al principio, el niño sugiere erróneamente duplicar la longitud de cada lado, pero Sócrates finalmente le hace comprender que los lados del nuevo cuadrado deben tener la misma longitud que la diagonal del original.
Los investigadores propusieron este problema a ChatGPT-4, primero imitando las preguntas de Sócrates y luego introduciendo deliberadamente errores, consultas y nuevas variantes del problema.
Al igual que otros Modelos de Lenguaje Grande (LLM), ChatGPT se entrena con vastas colecciones de texto y genera respuestas prediciendo secuencias de palabras aprendidas durante el entrenamiento. Los investigadores esperaban que resolviera su desafío matemático del griego antiguo regurgitando su conocimiento previo de la famosa solución de Sócrates. Sin embargo, pareció improvisar su enfoque y, en un momento dado, cometió un error claramente humano.
El estudio fue realizado por el Dr. Nadav Marco, profesor visitante de la Universidad de Cambridge, y Andreas Stylianides, profesor de Educación Matemática en Cambridge. Marco trabaja permanentemente en la Universidad Hebrea y en la Facultad de Educación David Yellin de Jerusalén.
Si bien son cautelosos respecto de los resultados y enfatizan que los LLM no piensan como humanos ni «resuelven las cosas», Marco caracterizó el comportamiento de ChatGPT como «similar al de un estudiante».
“Cuando nos enfrentamos a un problema nuevo, nuestro instinto suele ser probar cosas basándonos en nuestra experiencia previa”, dijo Marco. “En nuestro experimento, ChatGPT pareció hacer algo similar. Como un estudiante o un académico, pareció formular sus propias hipótesis y soluciones”.
Dado que ChatGPT se entrena con texto y no con diagramas, tiende a ser más débil en el tipo de razonamiento geométrico que Sócrates utilizó en el problema de la duplicación del cuadrado. A pesar de ello, el texto de Platón es tan conocido que los investigadores esperaban que el chatbot reconociera sus preguntas y reprodujera la solución de Sócrates.
Curiosamente, no lo logró. Al pedirle que duplicara el cuadrado, ChatGPT optó por un enfoque algebraico desconocido en la época de Platón.
Luego resistió los intentos de que cometiera el error del niño y se empeñó en el álgebra incluso cuando los investigadores se quejaron de que su respuesta era una aproximación. Solo cuando Marco y Stylianides le dijeron que estaban decepcionados porque, a pesar de todo su entrenamiento, no podía proporcionar una respuesta «elegante y exacta», el Chat produjo la alternativa geométrica.
A pesar de esto, ChatGPT demostró un conocimiento completo de la obra de Platón cuando se le preguntó al respecto. «Si solo hubiera estado recordando de memoria, casi con seguridad habría hecho referencia a la solución clásica de construir un nuevo cuadrado en la diagonal del cuadrado original de inmediato», dijo Stylianides. «En cambio, pareció adoptar su propio enfoque».
Los investigadores también plantearon una variante del problema de Platón, pidiéndole a ChatGPT que duplicara el área de un rectángulo conservando sus proporciones. Aunque ahora era consciente de su preferencia por la geometría, el Chat se empeñó en el álgebra. Cuando se le presionó, afirmó erróneamente que, como la diagonal de un rectángulo no se puede utilizar para duplicar su tamaño, no había una solución geométrica disponible.
El punto sobre la diagonal es cierto, pero existe una solución geométrica diferente. Marco sugirió que la probabilidad de que esta afirmación falsa provenga de la base de conocimientos del chatbot era mínima. En cambio, el Chat parecía estar improvisando sus respuestas basándose en su discusión previa sobre el cuadrado.
Finalmente, Marco y Stylianides le pidieron que duplicara el tamaño de un triángulo. El Chat recurrió al álgebra una vez más, pero tras más indicaciones, llegó a una respuesta geométrica correcta.
Los investigadores enfatizan la importancia de no sobreinterpretar estos resultados, ya que no pudieron observar científicamente la codificación del Chat. Sin embargo, desde la perspectiva de su experiencia digital como usuarios, lo que emergió a ese nivel superficial fue una combinación de recuperación de datos y razonamiento sobre la marcha.
Comparan este comportamiento con el concepto educativo de «zona de desarrollo próximo» (ZDP): la brecha entre lo que un alumno ya sabe y lo que podría llegar a saber con apoyo y orientación. Argumentan que quizás la IA Generativa tenga una «ZDP de Chat» metafórica: en algunos casos, no podrá resolver problemas de inmediato, pero podría hacerlo con indicaciones.
Los autores sugieren que trabajar con el Chat en su ZDP puede ayudar a convertir sus limitaciones en oportunidades de aprendizaje. Al incitar, cuestionar y probar sus respuestas, los estudiantes no solo explorarán los límites del Chat, sino que también desarrollarán las habilidades críticas de evaluación de pruebas y razonamiento que son la base del pensamiento matemático.
A diferencia de las demostraciones que se encuentran en libros de texto de prestigio, los estudiantes no pueden asumir que las demostraciones de Chat GPT sean válidas. Comprender y evaluar las demostraciones generadas por IA se están convirtiendo en habilidades clave que deben integrarse en el currículo de matemáticas, afirmó Stylianides.
“Estas son habilidades fundamentales que queremos que los estudiantes dominen, pero implica utilizar indicaciones como: ‘Quiero que exploremos este problema juntos’, no: ‘Dime la respuesta’”, agregó Marco.
A diferencia de las pruebas que se encuentran en libros de texto de buena reputación, los estudiantes no pueden asumir que las pruebas de Chat GPT sean válidas. Andreas Stylianides
La investigación se publica en la Revista Internacional de Educación Matemática en Ciencia y Tecnología .
Universidad de Cambridge News. Traducido al español