¿Los modelos de IA actuales realmente recuerdan, piensan, planifican y razonan como lo haría un cerebro humano?
Algunos laboratorios de IA quieren hacernos creer que sí, pero según el científico jefe de IA de Meta, Yann LeCun, la respuesta es no. Sin embargo, cree que podríamos llegar a ese punto en una década aproximadamente, si aplicamos un nuevo método llamado «modelo mundial».
A principios de este año, OpenAI lanzó una nueva función llamada “ memoria ” que permite a ChatGPT “recordar” sus conversaciones. La última generación de modelos de la startup, o1 , muestra la palabra “pensamiento” mientras genera un resultado, y OpenAI dice que los mismos modelos son capaces de “razonamiento complejo”.
Todo esto suena como si estuviéramos muy cerca de la inteligencia artificial general (IAG). Sin embargo, durante una reciente charla en el Hudson Forum , LeCun se deshizo de los optimistas de la IA, como el fundador de xAI, Elon Musk, y el cofundador de Google DeepMind, Shane Legg, quienes sugieren que la IA de nivel humano está a la vuelta de la esquina.
“Necesitamos máquinas que entiendan el mundo; [máquinas] que puedan recordar cosas, que tengan intuición, sentido común, cosas que puedan razonar y planificar al mismo nivel que los humanos”, dijo LeCun durante la charla. “A pesar de lo que haya escuchado de algunas de las personas más entusiastas, los sistemas de IA actuales no son capaces de nada de esto”.
LeCun afirma que los grandes modelos de lenguaje (LLM) actuales, como los que impulsan ChatGPT y Meta AI, están lejos de ser una “IA a nivel humano”. La humanidad podría estar a “años o décadas” de lograr algo así, dijo más tarde. (Eso no impide que su jefe, Mark Zuckerberg, le pregunte cuándo se materializará la IAG).
La razón es sencilla: esos modelos de lenguaje funcionan prediciendo el siguiente token (normalmente unas pocas letras o una palabra corta), y los modelos de imagen/vídeo actuales predicen el siguiente píxel. En otras palabras, los modelos de lenguaje son predictores unidimensionales, y los modelos de imagen/vídeo de IA son predictores bidimensionales. Estos modelos se han vuelto bastante buenos en la predicción en sus respectivas dimensiones, pero en realidad no comprenden el mundo tridimensional.
Por esta razón, los sistemas de inteligencia artificial modernos no pueden realizar tareas sencillas que la mayoría de los seres humanos pueden hacer. LeCun señala que los seres humanos aprenden a limpiar la mesa a los 10 años y a conducir un coche a los 17, y aprenden ambas cosas en cuestión de horas. Pero incluso los sistemas de inteligencia artificial más avanzados del mundo actual, basados en miles o millones de horas de datos, no pueden funcionar de forma fiable en el mundo físico.
Para lograr tareas más complejas, LeCun sugiere que necesitamos construir modelos tridimensionales que puedan percibir el mundo que nos rodea y centrarse en un nuevo tipo de arquitectura de IA: los modelos mundiales.
“Un modelo del mundo es tu modelo mental de cómo se comporta el mundo”, explicó. “Puedes imaginar una secuencia de acciones que podrías llevar a cabo, y tu modelo del mundo te permitirá predecir cuál será el efecto de esa secuencia de acciones en el mundo”.
Piensa en el “modelo del mundo” que tienes en tu cabeza. Por ejemplo, imagina que ves un dormitorio desordenado y quieres limpiarlo. Puedes imaginar que recoger toda la ropa y guardarla sería suficiente. No necesitas probar varios métodos ni aprender a limpiar una habitación primero. Tu cerebro observa el espacio tridimensional y crea un plan de acción para lograr tu objetivo en el primer intento. Ese plan de acción es la fórmula secreta que prometen los modelos del mundo de la IA.
Parte de la ventaja de esto es que los modelos mundiales pueden absorber muchos más datos que los LLM. Eso también hace que requieran un uso intensivo de los recursos computacionales, por lo que los proveedores de la nube se apresuran a asociarse con empresas de IA .
Los modelos mundiales son la gran idea que varios laboratorios de IA están persiguiendo ahora, y el término se está convirtiendo rápidamente en la próxima palabra de moda para atraer financiación de riesgo. Un grupo de investigadores de IA muy respetados, entre los que se incluyen Fei-Fei Li y Justin Johnson, acaba de recaudar 230 millones de dólares para su startup , World Labs. La «madrina de la IA» y su equipo también están convencidos de que los modelos mundiales darán lugar a sistemas de IA significativamente más inteligentes. OpenAI también describe su generador de vídeo Sora , aún no publicado , como un modelo mundial, pero no ha entrado en detalles.
En un artículo de 2022 sobre “IA basada en objetivos”, LeCun esbozó una idea para usar modelos del mundo para crear IA a nivel humano, aunque señala que el concepto tiene más de 60 años. En resumen, una representación básica del mundo (como un video de una habitación sucia) y la memoria se introducen en un modelo del mundo. Luego, el modelo del mundo predice cómo se verá el mundo basándose en esa información. Luego, le das al modelo del mundo objetivos, incluido un estado alterado del mundo que te gustaría lograr (como una habitación limpia) y barandillas para garantizar que el modelo no dañe a los humanos para lograr un objetivo (no me mates en el proceso de limpiar mi habitación, por favor). Luego, el modelo del mundo encuentra una secuencia de acción para lograr estos objetivos.
Según LeCun, el laboratorio de investigación de IA a largo plazo de Meta, FAIR (Fundamental AI Research), está trabajando activamente para desarrollar modelos de IA y del mundo basados en objetivos. FAIR solía trabajar en IA para los próximos productos de Meta, pero LeCun dice que el laboratorio ha cambiado en los últimos años para centrarse exclusivamente en la investigación de IA a largo plazo. LeCun dice que FAIR ni siquiera utiliza LLM en estos días.
Los modelos mundiales son una idea fascinante, pero LeCun dice que no hemos avanzado mucho en la materialización de estos sistemas. Hay muchos problemas muy difíciles que resolver desde donde estamos hoy, y dice que es ciertamente más complicado de lo que pensamos.
“Pasarán años antes de que podamos lograr que todo funcione aquí, si no una década”, dijo LeCun. “Mark Zuckerberg me sigue preguntando cuánto tiempo llevará”. TechCrunch. M. Z. Traducido al español