En el futuro, todas las interacciones humanas con las máquinas se realizarán a través de asistentes. Esta es la posición de Yann LeCun, jefe científico de IA de Meta, quien considera que la IA tendrá que alcanzar el nivel de la inteligencia humana para servirnos mejor.
Para Yann LeCun, vicepresidente y científico jefe de IA de Meta AI, es una certeza: la IA generativa tal como existe hoy, con los LLM, es un callejón sin salida tecnológico.
Por más grandes que sean, son incapaces de lograr lo que los humanos y los animales hacen todos los días.
“Los animales pueden aprender a realizar tareas muy rápidamente, pueden entender cómo funcionan las cosas, pueden razonar, pueden planificar y, como los humanos, tienen sentido común. Sus comportamientos están dirigidos por metas, objetivos. La pregunta es ¿cómo llegar a este nivel? » el explica.
El investigador eligió un enfoque completamente diferente: la IA basada en objetivos.
Hace un año y medio publicó un primer artículo de investigación que describe esta nueva forma de diseñar un sistema de inteligencia artificial y, según él, este enfoque ha logrado avances significativos.
Llevando la IA al nivel humano
La ambición de esta arquitectura es nada menos que llevar la IA al siguiente nivel y llevarla al nivel de los humanos.
“El objetivo es fabricar máquinas capaces de comprender el mundo, recordar, razonar y planificar. 4 cosas que los LLM son incapaces de hacer. » resume Yann LeCun.
Algunos verán en este proyecto las premisas de la IA general, pero el investigador prefiere el término AMI (Advanced Machine Intelligence).
Según su definición, se trata de sistemas capaces de comprender el mundo a partir de datos de sensores. Deben tener una memoria persistente, pero sobre todo ser capaces de planificar sus acciones para cumplir un objetivo. Finalmente, estos sistemas deben ser controlables y seguros por diseño y no por ajuste. Estas 4 limitaciones deben cumplirse mediante una arquitectura de tipo IA basada en objetivos.
Yann LeCun imaginó una arquitectura cognitiva que incluye múltiples módulos para asegurar la percepción, la memoria a corto plazo, la memoria asociativa, un módulo para evaluar el coste de una estrategia y un módulo para actuar.
Modelar el mundo es la piedra angular de esta arquitectura.
El investigador describe cómo funciona este cerebro artificial: “La IA percibirá el mundo, tendrá su propia representación del estado del mundo y combinará esta información con la que tiene en la memoria. Esto alimenta un modelo que predecirá cuál será el estado del mundo cuando se hayan ejecutado una serie de acciones. »
Como el jugador de ajedrez que imagina sus próximos movimientos y evalúa su relevancia, esta planificación permitirá verificar que el nuevo estado objetivo cumple una serie de limitaciones. Y, en particular, garantizar que la tarea solicitada se lleve a cabo efectivamente.
“Este enfoque permite poner barreras a esta IA y garantizar que estas acciones no excedan ciertas reglas. Por ejemplo, asegúrese de que esta serie de acciones no ofenda a nadie. Mediante optimización, el sistema intentará encontrar la serie de acciones que minimicen el objetivo. » Yann Lecun asegura que todo está “codificado” en la mecánica del sistema y no puede ser alterado por un aviso que intentaría descarrilar el sistema.
Desarrollando AMI… Inteligencia Artificial Avanzada
“El modelo aplicará una secuencia de acciones con múltiples pasos y las barreras se aplican al conjunto, pero también a cada paso intermedio. » el explica. Compara este enfoque con una antigua técnica bien conocida por los ingenieros que calculan trayectorias de cohetes: el control predictivo del modelo.
“Lo nuevo es la forma en que vamos a ejecutar el Modelo Mundial. Tradicionalmente, en optimización, el modelo mundial está integrado. Aquí habrá que aprenderlo por los canales de percepción, eso es lo complicado. » Como el mundo que nos rodea no es determinista ni totalmente predecible, es necesario establecer variables latentes para parametrizar el juego de predicciones plausibles.
Otro gran desafío para esta IA: permitirle realizar una planificación jerárquica para realizar las tareas que se le encomienden. Tomando el ejemplo de un viaje de Nueva York a París, una misión de este tipo implica un número increíblemente elevado de subtareas, empezando por levantarse de la silla, ponerse el abrigo, coger el bolso, abrir la puerta e ir al ascensor. , etc.
“¿Cómo se hace una planificación tan jerárquica y cómo se entrena un sistema para que la haga?” Todos los animales y los humanos saben cómo hacerlo, las máquinas no. Este es un problema que a día de hoy sigue sin resolverse y, sin embargo, es un punto esencial. » insiste Yann LeCun.
Pivote de la arquitectura AMI: un modelo descriptivo del mundo
Aún queda por afrontar otro desafío: el de elaborar el modelo descriptivo del mundo que servirá de base de reflexión para este AMI. Los bebés humanos aprenden conceptos básicos en los primeros meses de vida, simplemente a través de interacciones.
“Podemos imaginarnos entrenar un sistema para que aprenda secuencias de vídeo. Ocultando parte del vídeo podemos enseñar a un modelo a predecir el resto de la secuencia y así enseñarle comportamientos y acciones para reproducir la escena. Este enfoque de formación autosupervisado que conocemos desde hace 10 años no funciona. Cuando le pide al sistema que prediga el video, produce un video borroso porque dadas todas las posibilidades de resultados posibles, el modelo produce un promedio. » explica Yann LeCun.
En 2022, el investigador propuso un nuevo enfoque: JEPA (Joint Embedding Predictive Architecture).
“Esta no es una arquitectura generativa, porque en lugar de predecir el resto del video con todos sus detalles, tomamos el video y lo pasamos a través de un codificador que genera una representación abstracta del contenido del video. La predicción no se produce a nivel de los píxeles del vídeo, sino de la representación de la escena. » el explica.
A diferencia de los modelos generativos que predicen escenas con muchos detalles pero añadiendo detalles aberrantes, el enfoque JEPA funciona en el nivel de la representación abstracta de la escena.
Este nuevo enfoque aún requiere trabajo de investigación. “Hasta hace 4 años no teníamos respuesta de cómo podíamos capacitar a las JEPA. Hoy tenemos la respuesta, pero hay que tener cuidado para evitar el colapso del modelo. Este es un fenómeno en el que el modelo comienza a ignorar las entradas y produce una salida constante que es fácil de predecir. » especifica Yann Lecun.
Según él, los modelos JEPA pueden funcionar en secuencias de vídeo y, por lo tanto, constituyen un serio candidato para entrenar un modelo del mundo a partir de vídeos para una IA guiada por objetivos.
El investigador concluyó su intervención con una nueva acusación contra los LLM: “Necesitamos potencia informática. Es necesario, pero no suficiente. No vamos a gestionar la IA a nivel humano simplemente capacitando a los LLM existentes con más datos y con más poder. Su rendimiento ya está saturado entrenándolos sobre todos los textos accesibles en la Web. »
Aún no se han realizado todas las investigaciones necesarias para dar lugar a una IA guiada por objetivos. En cuanto a la IA a nivel humano, Yann Lecun no cree en ella hasta dentro de 3 a 5 años, estimando que aún serán necesarias décadas para lograrla. Sin embargo, está seguro de que así será.
La arquitectura cognitiva de la IA guiada por objetivos imaginados por Yann LeCun y sus equipos de investigadores.
Fuente:NetMedia.Francia.AC., traducido al español
Comentarios recogidos durante la conferencia WAICF en Cannes, febrero de 2024
Fotos: © DR Meta