Los robots pueden ser aprendices meticulosos.
Históricamente, han requerido instrucciones precisas, paso a paso, para completar tareas básicas y tienden a abandonar cuando las cosas se salen del guion, como al dejar caer una herramienta o perder un tornillo.
Pero investigadores de Cornell han desarrollado un nuevo marco robótico impulsado por inteligencia artificial, llamado RHyME (Recuperación para Imitación Híbrida bajo Ejecución Dispareja), que permite a los robots aprender tareas con solo ver un video instructivo. RHyME podría acelerar el desarrollo y la implementación de sistemas robóticos al reducir significativamente el tiempo, la energía y el dinero necesarios para entrenarlos, afirmaron los investigadores.

“Uno de los aspectos molestos de trabajar con robots es recopilar una gran cantidad de datos sobre el robot al realizar diferentes tareas”, dijo Kushal Kedia, estudiante de doctorado en informática y autor principal de un artículo correspondiente en RHyME. “Así no es como los humanos realizan las tareas. Nos inspiramos en otras personas”.
Kedia presentará el artículo “ Imitación de un solo disparo bajo ejecución desigual ” en mayo en la Conferencia Internacional sobre Robótica y Automatización del Instituto de Ingenieros Eléctricos y Electrónicos, en Atlanta.
Los asistentes robóticos domésticos aún están muy lejos de desarrollarse, ya que carecen de la inteligencia necesaria para desenvolverse en el mundo físico y sus innumerables contingencias. Para que los robots adquieran la velocidad necesaria, investigadores como Kedia los entrenan con lo que equivale a vídeos instructivos: demostraciones humanas de diversas tareas en un laboratorio. La esperanza con este enfoque, una rama del aprendizaje automático llamada «aprendizaje por imitación», es que los robots aprendan una secuencia de tareas más rápidamente y puedan adaptarse a entornos reales.
«Nuestro trabajo es como traducir del francés al inglés: traducimos cualquier tarea dada de un humano a un robot», dijo el autor principal Sanjiban Choudhury , profesor adjunto de informática en la Facultad de Informática y Ciencias de la Información Ann S. Bowers de Cornell.
Sin embargo, esta tarea de traducción aún enfrenta un desafío mayor: los humanos se mueven con demasiada fluidez como para que un robot pueda rastrearlos e imitarlos, y entrenar a robots con video requiere una gran cantidad de video. Además, las demostraciones en video (por ejemplo, recoger una servilleta o apilar platos) deben realizarse de forma lenta e impecable, ya que cualquier discrepancia entre las acciones del video y las del robot ha sido históricamente un fracaso para el aprendizaje robótico, según los investigadores.
“Si un humano se mueve de forma diferente a como se mueve un robot, el método se desmorona inmediatamente”, dijo Choudhury. “Nos preguntamos: ‘¿Podemos encontrar una forma sólida de abordar esta discrepancia entre la forma en que los humanos y los robots realizan las tareas?’”
RHyME es la respuesta del equipo: un enfoque escalable que hace que los robots sean menos quisquillosos y más adaptables. Potencia un sistema robótico para que use su propia memoria y conecte los puntos al realizar tareas que solo ha visto una vez, recurriendo a videos que ya ha visto. Por ejemplo, un robot equipado con RHyME, al que se le muestra un video de una persona cogiendo una taza de la encimera y colocándola en un fregadero cercano, explorará su colección de videos y se inspirará en acciones similares, como agarrar una taza y bajar un utensilio.
RHyME facilita el aprendizaje de secuencias de varios pasos por parte de robots, reduciendo significativamente la cantidad de datos necesarios para su entrenamiento, según los investigadores. RHyME requiere tan solo 30 minutos de datos; en un entorno de laboratorio, los robots entrenados con el sistema lograron un aumento de más del 50 % en el éxito de las tareas en comparación con métodos anteriores, según los investigadores.
Este trabajo se aleja de la programación actual de robots. La programación tradicional de robots requiere miles de horas de teleoperación para enseñarles a realizar tareas. Eso es simplemente imposible —dijo Choudhury—. Con RHyME, nos alejamos de eso y aprendemos a entrenar robots de una forma más escalable.
Junto con Kedia y Choudhury, los autores del artículo son Prithwish Dan, MS ’26; Angela Chao, M.Eng. ’25; y Maximus Pace, MS ’26.
Esta investigación fue apoyada por Google, OpenAI, la Oficina de Investigación Naval de EE. UU. y la Fundación Nacional de Ciencias.
Facultad de Computación y Ciencias de la Información Ann S. Bowers de Cornell News. L. Di P. Traducido al español