
Usando IA, estos robots aprenden habilidades complicadas con una precisión sorprendente
Investigadores de UC Berkeley idearon una forma rápida y precisa de enseñar a los robots tareas como ensamblar una placa base o un cajón de IKEA. En la Universidad de California en Berkeley, los investigadores del Laboratorio de Inteligencia Artificial y Aprendizaje Robótico de Sergey Levine observaron una mesa en la que se encontraba una torre de 39 bloques de Jenga perfectamente apilados. Entonces, un robot blanco y negro, con una sola extremidad doblada como una jirafa encorvada, se dirigió a toda velocidad hacia la torre blandiendo un látigo de cuero negro. A través de lo que podría haber parecido a un milagro de la física para un observador casual, el látigo golpeó exactamente en el lugar correcto para hacer que un solo bloque saliera volando de la pila mientras que el resto de la torre permaneció estructuralmente sólida. Esta tarea, conocida como «Jenga whipping», es un pasatiempo que practican las personas con la destreza y los reflejos necesarios para realizarla. Ahora, los robots la han dominado gracias a un novedoso método de entrenamiento impulsado por IA. Al aprender de las demostraciones y los comentarios humanos, así como de sus propios intentos en el mundo real, este protocolo de entrenamiento enseña a los robots a realizar tareas complicadas como Jenga whipping con una tasa de éxito del 100%. Además, los robots aprenden a una velocidad impresionante, lo que les permite aprender en una o dos horas cómo ensamblar perfectamente una placa base de computadora, construir un estante y más. Impulsado por la IA, el campo del aprendizaje robótico ha buscado resolver el desafío de cómo enseñar a las máquinas actividades que son impredecibles o complicadas, en lugar de una única acción, como recoger repetidamente un objeto de un lugar determinado en una cinta transportadora. Para resolver este dilema, el laboratorio de Levine se ha centrado en lo que se llama «aprendizaje de refuerzo». El investigador postdoctoral Jianlan Luo explicó que en el aprendizaje de refuerzo, un robot intenta realizar una tarea en el mundo real y, utilizando la retroalimentación de las cámaras, aprende de sus errores para finalmente dominar esa habilidad. Cuando el equipo anunció por primera vez un nuevo paquete de software que utiliza este enfoque a principios de 2024, Luo dijo que se sintieron alentados por el hecho de que otros podrían replicar rápidamente su éxito utilizando el software de código abierto por su cuenta. Este otoño, el equipo de investigación de Levine, Luo, Charles Xu, Zheyuan Hu y Jeffrey Wu publicó un informe técnico sobre su sistema más reciente, el que superó con creces el Jenga. Esta versión nueva y mejorada agregó la intervención humana. Con un ratón especial que controla el robot, un humano puede corregir el curso del robot, y esas correcciones pueden incorporarse al proverbial banco de memoria del robot. Mediante un método de inteligencia artificial llamado aprendizaje de refuerzo, el robot analiza la suma de todos sus intentos (asistidos y no asistidos, exitosos y fallidos) para realizar mejor su tarea. Luo dijo que un humano necesitaba intervenir cada vez menos a medida que el robot aprendía de la experiencia. «Tuve que cuidar al robot durante quizás el primer 30% o algo así, y luego, gradualmente, pude prestarle menos atención», dijo. El laboratorio sometió a su sistema robótico a una serie de tareas complicadas que iban más allá de las de Jenga. El robot dio vuelta un huevo en una sartén, pasó un objeto de un brazo a otro y montó una placa base, un salpicadero de coche y una correa de distribución. Los investigadores seleccionaron estos desafíos porque eran variados y, en palabras de Luo, representaban “todo tipo de incertidumbre a la hora de realizar tareas robóticas en el complejo mundo real”. La tarea de la correa de distribución se destacó en términos de dificultad. Cada vez que el robot interactuaba con la correa de distribución (imagínese tratar de manipular una cadena de collar flexible sobre dos clavijas), necesitaba anticipar y reaccionar a ese cambio. El juego de Jenga constituye un desafío diferente. Implica leyes físicas que son difíciles de modelar, por lo que es menos eficiente entrenar a un robot utilizando únicamente simulaciones; la experiencia en el mundo real fue fundamental. Los investigadores también probaron la adaptabilidad de los robots simulando accidentes. Obligaban a abrir una pinza para que dejara caer un objeto o moviera una placa base mientras el robot intentaba instalar un microchip, entrenándolo para que reaccionara a una situación cambiante que pudiera encontrar fuera de un entorno de laboratorio. Al final del entrenamiento, el robot podía ejecutar estas tareas correctamente el 100% del tiempo. Los investigadores compararon sus resultados con un método común de “copiar mi comportamiento” conocido como clonación conductual que se entrenó con la misma cantidad de datos de demostración; su nuevo sistema hizo que los robots fueran más rápidos y precisos. Estas métricas son cruciales, dijo Luo, porque el listón para la competencia de los robots es muy alto. Los consumidores habituales y los industriales por igual no quieren comprar un robot inconsistente. Luo enfatizó que, en particular, los procesos de fabricación “hechos a pedido” como los que se usan a menudo para la electrónica, los automóviles y las piezas aeroespaciales podrían beneficiarse de robots que pueden aprender de manera confiable y adaptable una variedad de tareas. La primera vez que el robot superó el desafío del látigo de Jenga, «eso realmente me sorprendió», dijo Luo. «La tarea de Jenga es muy difícil para la mayoría de los humanos. Lo intenté con un látigo en la mano; tuve un 0% de éxito». E incluso cuando se compara con un humano experto en el látigo de Jenga, agregó, el robot probablemente superará al humano porque no tiene músculos que se cansen con el tiempo. El nuevo sistema de aprendizaje del laboratorio de Levine forma parte de una tendencia más amplia en materia de innovación en robótica. En los últimos dos años, este campo en general ha avanzado a pasos agigantados, impulsado por la inversión de la industria y la inteligencia artificial, que proporciona a los