Una nueva investigación podría permitir a una persona corregir las acciones de una robot en tiempo real, utilizando el tipo de retroalimentación que le darían a otro ser humano.
Imagina que un robot te está ayudando a limpiar los platos. Le pides que saque un tazón jabonoso del fregadero, pero su pinza pierde ligeramente la marca.
Usando un nuevo marco desarrollado por los investigadores del MIT y NVIDIA, podría corregir el comportamiento de los robots con interacciones simples. El método le permitiría señalar el tazón o trazar una trayectoria en una pantalla, o simplemente darle al brazo de los robots un empujón en la dirección correcta.
A diferencia de otros métodos para corregir el comportamiento del robot, esta técnica no requiere que los usuarios recopilen nuevos datos y vuelvan a entrenar el modelo de aprendizaje automático que alimenta el cerebro de los robots. Permite a un robot utilizar retroalimentación humana intuitiva y en tiempo real para elegir una secuencia de acción factible que se acerque lo más posible a satisfacer la intención del usuario.
Cuando los investigadores probaron su marco, su tasa de éxito fue un 21 por ciento más alta que un método alternativo que no aprovechó las intervenciones humanas.
A la larga, este marco podría permitir a un usuario guiar más fácilmente a un robot entrenado en fábrica para realizar una amplia variedad de tareas domésticas a pesar de que el robot nunca ha visto su hogar o los objetos en él.
“Podemos esperar que los laicos realicen la recopilación de datos y ajusten un modelo de red neuronal. El consumidor esperará que el robot funcione de inmediato, y si no es así, querría un mecanismo intuitivo para personalizarlo. Ese es el desafío que abordamos en este trabajo,” dice Felix Yanwei Wang, un estudiante graduado de ingeniería eléctrica e informática (EECS) y autor principal de un documento sobre este método.
Sus coautores incluyen Lirui Wang PhD ’24 y Yilun Du PhD ’24; la autora principal Julie Shah, profesora de aeronáutica y astronáutica del MIT y directora del Grupo de Robótica Interactiva en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); así como Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Pérez-DdaArpino PhD ’19 y Dieter Fox de NVIDIA. La investigación se presentará en la Conferencia Internacional sobre Robots y Automatización.
Mitigación de la desalineación
Recientemente, los investigadores han comenzado a usar modelos de IA generativa pre-entrenados para aprender una política “,” o un conjunto de reglas, que un robot sigue para completar una acción. Los modelos generativos pueden resolver múltiples tareas complejas.
Durante el entrenamiento, el modelo solo ve movimientos de robot factibles, por lo que aprende a generar trayectorias válidas para que el robot las siga.
Si bien estas trayectorias son válidas, eso no significa que siempre se alineen con la intención de un usuario en el mundo real. El robot podría haber sido entrenado para agarrar cajas de un estante sin derribarlas, pero podría no llegar a la caja encima de la estantería de alguien si el estante está orientado de manera diferente a los que vio en el entrenamiento.
Para superar estos fallos, los ingenieros suelen recopilar datos que demuestran la nueva tarea y volver a entrenar el modelo generativo, un proceso costoso y lento que requiere experiencia en aprendizaje automático.
En cambio, los investigadores del MIT querían permitir a los usuarios dirigir el comportamiento de las robots durante la implementación cuando comete un error.
Pero si un humano interactúa con el robot para corregir su comportamiento, eso podría causar inadvertidamente que el modelo generativo elija una acción no válida. Puede llegar a la caja que el usuario desea, pero elimine los libros del estante en el proceso.
“Queremos permitir que el usuario interactúe con el robot sin introducir ese tipo de errores, por lo que obtenemos un comportamiento que está mucho más alineado con la intención del usuario durante la implementación, pero que también es válido y factible, dice Wang.
Su framework logra esto al proporcionar al usuario tres formas intuitivas de corregir el comportamiento de las robots, cada una de las cuales ofrece ciertas ventajas.
Primero, el usuario puede apuntar al objeto que desea que el robot manipule en una interfaz que muestra su vista de cámara. En segundo lugar, pueden rastrear una trayectoria en esa interfaz, lo que les permite especificar cómo quieren que el robot llegue al objeto. Tercero, pueden mover físicamente el brazo de las robots en la dirección que quieren que siga.
“Cuando estás mapeando una imagen 2D del entorno a acciones en un espacio 3D, se pierde algo de información. Empujar físicamente al robot es la forma más directa de especificar la intención del usuario sin perder ninguna de la información, dice Wang.
Muestreo para el éxito
Para garantizar que estas interacciones no causen que el robot elija una acción no válida, como chocar con otros objetos, los investigadores utilizan un procedimiento de muestreo específico. Esta técnica permite al modelo elegir una acción del conjunto de acciones válidas que se alinea más estrechamente con el objetivo de los usuarios.
“En lugar de simplemente imponer la voluntad de los usuarios, le damos al robot una idea de lo que el usuario pretende, pero dejamos que el procedimiento de muestreo oscile en torno a su propio conjunto de comportamientos aprendidos, explica Wang.
Este método de muestreo permitió al marco de trabajo de researchers’ superar a los otros métodos con los que lo compararon durante simulaciones y experimentos con un brazo robot real en una cocina de juguete.
Si bien es posible que su método no siempre complete la tarea de inmediato, ofrece a los usuarios la ventaja de poder corregir inmediatamente el robot si lo ven haciendo algo mal, en lugar de esperar a que termine y luego darle nuevas instrucciones.
Además, después de que un usuario empuja al robot varias veces hasta que recoge el tazón correcto, podría registrar esa acción correctiva e incorporarla a su comportamiento a través del entrenamiento futuro. Luego, al día siguiente, el robot podría recoger el tazón correcto sin necesidad de un empujón.
“Pero la clave de esa mejora continua es tener una forma de que el usuario interactúe con el robot, que es lo que hemos mostrado aquí, dice Wang.
En el futuro, los investigadores quieren aumentar la velocidad del procedimiento de muestreo mientras mantienen o mejoran su rendimiento. También quieren experimentar con la generación de políticas de robots en entornos novedosos. MIT News. Z, A. Traducido al español