Investigadores de UC Berkeley idearon una forma rápida y precisa de enseñar a los robots tareas como ensamblar una placa base o un cajón de IKEA.
En la Universidad de California en Berkeley, los investigadores del Laboratorio de Inteligencia Artificial y Aprendizaje Robótico de Sergey Levine observaron una mesa en la que se encontraba una torre de 39 bloques de Jenga perfectamente apilados. Entonces, un robot blanco y negro, con una sola extremidad doblada como una jirafa encorvada, se dirigió a toda velocidad hacia la torre blandiendo un látigo de cuero negro. A través de lo que podría haber parecido a un milagro de la física para un observador casual, el látigo golpeó exactamente en el lugar correcto para hacer que un solo bloque saliera volando de la pila mientras que el resto de la torre permaneció estructuralmente sólida.
Esta tarea, conocida como «Jenga whipping», es un pasatiempo que practican las personas con la destreza y los reflejos necesarios para realizarla. Ahora, los robots la han dominado gracias a un novedoso método de entrenamiento impulsado por IA. Al aprender de las demostraciones y los comentarios humanos, así como de sus propios intentos en el mundo real, este protocolo de entrenamiento enseña a los robots a realizar tareas complicadas como Jenga whipping con una tasa de éxito del 100%. Además, los robots aprenden a una velocidad impresionante, lo que les permite aprender en una o dos horas cómo ensamblar perfectamente una placa base de computadora, construir un estante y más.
Impulsado por la IA, el campo del aprendizaje robótico ha buscado resolver el desafío de cómo enseñar a las máquinas actividades que son impredecibles o complicadas, en lugar de una única acción, como recoger repetidamente un objeto de un lugar determinado en una cinta transportadora. Para resolver este dilema, el laboratorio de Levine se ha centrado en lo que se llama «aprendizaje de refuerzo». El investigador postdoctoral Jianlan Luo explicó que en el aprendizaje de refuerzo, un robot intenta realizar una tarea en el mundo real y, utilizando la retroalimentación de las cámaras, aprende de sus errores para finalmente dominar esa habilidad. Cuando el equipo anunció por primera vez un nuevo paquete de software que utiliza este enfoque a principios de 2024, Luo dijo que se sintieron alentados por el hecho de que otros podrían replicar rápidamente su éxito utilizando el software de código abierto por su cuenta.
Este otoño, el equipo de investigación de Levine, Luo, Charles Xu, Zheyuan Hu y Jeffrey Wu publicó un informe técnico sobre su sistema más reciente, el que superó con creces el Jenga. Esta versión nueva y mejorada agregó la intervención humana. Con un ratón especial que controla el robot, un humano puede corregir el curso del robot, y esas correcciones pueden incorporarse al proverbial banco de memoria del robot. Mediante un método de inteligencia artificial llamado aprendizaje de refuerzo, el robot analiza la suma de todos sus intentos (asistidos y no asistidos, exitosos y fallidos) para realizar mejor su tarea. Luo dijo que un humano necesitaba intervenir cada vez menos a medida que el robot aprendía de la experiencia. «Tuve que cuidar al robot durante quizás el primer 30% o algo así, y luego, gradualmente, pude prestarle menos atención», dijo.
El laboratorio sometió a su sistema robótico a una serie de tareas complicadas que iban más allá de las de Jenga. El robot dio vuelta un huevo en una sartén, pasó un objeto de un brazo a otro y montó una placa base, un salpicadero de coche y una correa de distribución. Los investigadores seleccionaron estos desafíos porque eran variados y, en palabras de Luo, representaban “todo tipo de incertidumbre a la hora de realizar tareas robóticas en el complejo mundo real”.
La tarea de la correa de distribución se destacó en términos de dificultad. Cada vez que el robot interactuaba con la correa de distribución (imagínese tratar de manipular una cadena de collar flexible sobre dos clavijas), necesitaba anticipar y reaccionar a ese cambio.
El juego de Jenga constituye un desafío diferente. Implica leyes físicas que son difíciles de modelar, por lo que es menos eficiente entrenar a un robot utilizando únicamente simulaciones; la experiencia en el mundo real fue fundamental.
Los investigadores también probaron la adaptabilidad de los robots simulando accidentes. Obligaban a abrir una pinza para que dejara caer un objeto o moviera una placa base mientras el robot intentaba instalar un microchip, entrenándolo para que reaccionara a una situación cambiante que pudiera encontrar fuera de un entorno de laboratorio.
Al final del entrenamiento, el robot podía ejecutar estas tareas correctamente el 100% del tiempo. Los investigadores compararon sus resultados con un método común de “copiar mi comportamiento” conocido como clonación conductual que se entrenó con la misma cantidad de datos de demostración; su nuevo sistema hizo que los robots fueran más rápidos y precisos. Estas métricas son cruciales, dijo Luo, porque el listón para la competencia de los robots es muy alto. Los consumidores habituales y los industriales por igual no quieren comprar un robot inconsistente. Luo enfatizó que, en particular, los procesos de fabricación “hechos a pedido” como los que se usan a menudo para la electrónica, los automóviles y las piezas aeroespaciales podrían beneficiarse de robots que pueden aprender de manera confiable y adaptable una variedad de tareas.

La primera vez que el robot superó el desafío del látigo de Jenga, «eso realmente me sorprendió», dijo Luo. «La tarea de Jenga es muy difícil para la mayoría de los humanos. Lo intenté con un látigo en la mano; tuve un 0% de éxito». E incluso cuando se compara con un humano experto en el látigo de Jenga, agregó, el robot probablemente superará al humano porque no tiene músculos que se cansen con el tiempo.
El nuevo sistema de aprendizaje del laboratorio de Levine forma parte de una tendencia más amplia en materia de innovación en robótica. En los últimos dos años, este campo en general ha avanzado a pasos agigantados, impulsado por la inversión de la industria y la inteligencia artificial, que proporciona a los ingenieros herramientas superpoderosas para analizar datos de rendimiento o imágenes que un robot podría estar observando. Los profesores e investigadores de Berkeley forman parte de esta oleada de innovación; varias empresas de robótica de vanguardia que han recibido una importante financiación de riesgo o incluso han salido a bolsa tienen vínculos con el campus.

Levine cofundó la empresa de robótica Physical Intelligence (PI), que actualmente está valuada en 2 mil millones de dólares por su progreso hacia la creación de software que puede funcionar para una variedad de robots. En su última ronda de financiación , PI recaudó 400 millones de dólares de inversores, incluidos Jeff Bezos y OpenAI. En 2018, el profesor Ken Goldberg y otros investigadores de Berkeley formaron Ambi Robotics , que ha recaudado unos 67 millones de dólares; la empresa crea robots entrenados a través de simulaciones de IA que agarran y clasifican paquetes en diferentes contenedores, lo que los hace indispensables para las empresas de comercio electrónico. Pieter Abbeel, director del Laboratorio de Investigación de Inteligencia Artificial de Berkeley, cocreó la startup de robótica de IA Covariant, cuyos modelos -y grupo de expertos- fueron reclutados por Amazon el año pasado. Y Homayoon Kazerooni , profesor de ingeniería mecánica, fundó la empresa que cotiza en bolsa Ekso Bionics, que fabrica «exoesqueletos» robóticos para uso de personas con movilidad limitada.
En cuanto a la investigación de Luo, está entusiasmado por ver hasta dónde pueden llegar su equipo y otros investigadores. El siguiente paso, dijo, sería entrenar previamente el sistema con capacidades básicas de manipulación de objetos, eliminando la necesidad de aprenderlas desde cero y, en su lugar, progresando directamente hacia la adquisición de habilidades más complejas. El laboratorio también decidió hacer que su investigación fuera de código abierto para que otros investigadores pudieran usarla y desarrollarla.
“Un objetivo clave de este proyecto es hacer que la tecnología sea tan accesible y fácil de usar como un iPhone”, afirmó Luo. “Creo firmemente que cuantas más personas puedan usarla, mayor será el impacto que podamos generar”.