El Portal de las Tecnologías para la Innovación

Robot, conócete a ti mismo: un nuevo sistema basado en visión enseña a las máquinas a comprender sus cuerpos

Fuente:

Los campos jacobianos neuronales, desarrollados por investigadores del MIT CSAIL, pueden aprender a controlar cualquier robot desde una sola cámara, sin ningún otro sensor.

En una oficina del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, una mano robótica suave curva cuidadosamente sus dedos para agarrar un objeto pequeño. Lo intrigante no reside en el diseño mecánico ni en los sensores integrados; de hecho, la mano no los tiene. Todo el sistema se basa en una sola cámara que observa los movimientos del robot y utiliza esos datos visuales para controlarlo.

Esta capacidad proviene de un nuevo sistema desarrollado por científicos de CSAIL, que ofrece una perspectiva diferente sobre el control robótico. En lugar de utilizar modelos diseñados a mano o complejos conjuntos de sensores, permite a los robots aprender cómo responden sus cuerpos a las órdenes de control, únicamente a través de la visión. El enfoque, denominado Campos Jacobianos Neuronales (NJF), proporciona a los robots una especie de autoconciencia corporal. Un artículo de acceso abierto sobre este trabajo se publicó en  Nature el 25 de junio.

“Este trabajo apunta a una transición de la programación de robots a la enseñanza de robots”, afirma Sizhe Lester Li, estudiante de doctorado en ingeniería eléctrica e informática del MIT, afiliado a CSAIL e investigador principal del trabajo. “Hoy en día, muchas tareas robóticas requieren un amplio proceso de ingeniería y programación. En el futuro, imaginamos mostrarle a un robot qué hacer y dejar que aprenda a lograrlo de forma autónoma”.

La motivación surge de un replanteamiento simple pero contundente: el principal obstáculo para una robótica asequible y flexible no es el hardware, sino el control de la capacidad, que podría lograrse de múltiples maneras. Los robots tradicionales se construyen para ser rígidos y estar repletos de sensores, lo que facilita la construcción de un gemelo digital, una réplica matemática precisa utilizada para el control. Pero cuando un robot es blando, deformable o tiene una forma irregular, estas suposiciones se desmoronan. En lugar de obligar a los robots a ajustarse a nuestros modelos, NJF invierte el guion, brindándoles la capacidad de aprender su propio modelo interno a partir de la observación.

Mira y aprende

Esta disociación entre el modelado y el diseño de hardware podría ampliar significativamente el campo de diseño de la robótica. En robots blandos y de inspiración biológica, los diseñadores suelen integrar sensores o reforzar partes de la estructura solo para que el modelado sea viable. NJF elimina esta limitación. El sistema no necesita sensores integrados ni ajustes de diseño para posibilitar el control. Los diseñadores tienen mayor libertad para explorar morfologías no convencionales y sin restricciones, sin preocuparse de si podrán modelarlas o controlarlas posteriormente.

“Piensa en cómo aprendes a controlar tus dedos: los mueves, los observas, los adaptas”, dice Li. “Eso es lo que hace nuestro sistema. Experimenta con acciones aleatorias y descubre qué controles mueven qué partes del robot”.

El sistema ha demostrado su robustez en diversos tipos de robots. El equipo probó NJF en una mano robótica neumática blanda capaz de pellizcar y agarrar, una mano rígida Allegro, un brazo robótico impreso en 3D e incluso una plataforma giratoria sin sensores integrados. En todos los casos, el sistema aprendió tanto la forma del robot como su respuesta a las señales de control, simplemente a partir de la visión y el movimiento aleatorio.

Los investigadores ven un potencial mucho mayor que el del laboratorio. Los robots equipados con NJF podrían algún día realizar tareas agrícolas con precisión de localización centimétrica, operar en obras de construcción sin complejos conjuntos de sensores o navegar en entornos dinámicos donde los métodos tradicionales no funcionan.

En el núcleo de NJF se encuentra una red neuronal que captura dos aspectos interrelacionados de la corporeidad de un robot: su geometría tridimensional y su sensibilidad a las entradas de control. El sistema se basa en campos de radiancia neuronal (NeRF), una técnica que reconstruye escenas 3D a partir de imágenes mediante la asignación de coordenadas espaciales a valores de color y densidad. NJF amplía este enfoque al aprender no solo la forma del robot, sino también un campo jacobiano, una función que predice cómo se mueve cualquier punto del cuerpo del robot en respuesta a comandos motores.

Para entrenar el modelo, el robot realiza movimientos aleatorios mientras varias cámaras registran los resultados. No se requiere supervisión humana ni conocimiento previo de la estructura del robot: el sistema simplemente infiere la relación entre las señales de control y el movimiento mediante la observación.

Una vez finalizado el entrenamiento, el robot solo necesita una cámara monocular para el control de bucle cerrado en tiempo real, operando a aproximadamente 12 hercios. Esto le permite observarse continuamente, planificar y actuar con rapidez. Esta velocidad hace que NJF sea más viable que muchos simuladores basados en la física para robots blandos, que suelen requerir un uso computacional demasiado intensivo para su uso en tiempo real.

En las primeras simulaciones, incluso los dedos y deslizadores 2D más sencillos podían aprender este mapeo con tan solo unos pocos ejemplos. Al modelar cómo puntos específicos se deforman o desplazan en respuesta a la acción, NJF crea un mapa de control denso. Este modelo interno le permite generalizar el movimiento en todo el cuerpo del robot, incluso cuando los datos son incompletos o con ruido.

“Lo realmente interesante es que el sistema determina por sí solo qué motores controlan qué partes del robot”, dice Li. “Esto no está programado; surge de forma natural mediante el aprendizaje, como cuando una persona descubre los botones de un dispositivo nuevo”.

El futuro es suave

Durante décadas, la robótica ha priorizado las máquinas rígidas y fáciles de modelar, como los brazos industriales de las fábricas, porque sus propiedades simplifican el control. Sin embargo, el campo se ha orientado hacia robots blandos, de inspiración biológica, que se adaptan al mundo real con mayor fluidez. ¿La desventaja? Estos robots son más difíciles de modelar.

Hoy en día, la robótica a menudo parece inalcanzable debido a los costosos sensores y la compleja programación. Nuestro objetivo con los Campos Jacobianos Neuronales es reducir esta barrera, haciendo que la robótica sea asequible, adaptable y accesible para más personas. La visión es un sensor resiliente y fiable —afirma Vincent Sitzmann, autor principal y profesor adjunto del MIT, quien dirige el grupo de Representación de Escenas—. Abre las puertas a robots que pueden operar en entornos desordenados y desestructurados, desde granjas hasta obras de construcción, sin infraestructuras costosas.

La visión por sí sola puede proporcionar las señales necesarias para la localización y el control, eliminando la necesidad de GPS, sistemas de rastreo externos o sensores integrados complejos. Esto abre la puerta a un comportamiento robusto y adaptativo en entornos desestructurados, desde drones que navegan en interiores o subterráneos sin mapas, hasta manipuladores móviles que trabajan en casas o almacenes desordenados, e incluso robots con patas que recorren terrenos irregulares —afirma la coautora Daniela Rus, profesora de ingeniería eléctrica e informática del MIT y directora de CSAIL—. Al aprender de la retroalimentación visual, estos sistemas desarrollan modelos internos de su propio movimiento y dinámica, lo que permite un funcionamiento flexible y autosupervisado donde los métodos de localización tradicionales fracasarían.

Si bien el entrenamiento de NJF actualmente requiere varias cámaras y debe repetirse para cada robot, los investigadores ya están imaginando una versión más accesible. En el futuro, los aficionados podrían grabar los movimientos aleatorios de un robot con su teléfono, de forma similar a grabar un video de un auto de alquiler antes de partir, y usar esa grabación para crear un modelo de control, sin necesidad de conocimientos previos ni equipo especial.

El sistema aún no se generaliza entre diferentes robots y carece de detección de fuerza o táctil, lo que limita su eficacia en tareas con alto nivel de contacto. Sin embargo, el equipo está explorando nuevas maneras de abordar estas limitaciones: mejorando la generalización, gestionando oclusiones y ampliando la capacidad del modelo para razonar en horizontes espaciales y temporales más amplios.

“Así como los humanos desarrollan una comprensión intuitiva de cómo se mueven sus cuerpos y responden a las órdenes, la NJF proporciona a los robots ese tipo de autoconciencia incorporada únicamente mediante la visión”, afirma Li. “Esta comprensión sienta las bases para la manipulación y el control flexibles en entornos reales. Nuestro trabajo, en esencia, refleja una tendencia más amplia en robótica: dejar de lado la programación manual de modelos detallados y avanzar hacia la enseñanza de robots mediante la observación y la interacción”.

Este artículo combinó el trabajo en visión artificial y aprendizaje autosupervisado del laboratorio Sitzmann con la experiencia en robótica blanda del laboratorio Rus. Li, Sitzmann y Rus fueron coautores del artículo junto con Annan Zhang SM ’22, estudiante de doctorado en ingeniería eléctrica e informática (EECS); Boyuan Chen, estudiante de doctorado en EECS; Hanna Matusik, investigadora de pregrado en ingeniería mecánica; y Chao Liu, investigador posdoctoral en el Senseable City Lab del MIT. 

La investigación contó con el apoyo del Fondo de Investigación Solomon Buchsbaum a través del Comité de Apoyo a la Investigación del MIT, una beca presidencial del MIT, la Fundación Nacional de Ciencias y el Instituto de Ciencia y Tecnología de Gwangju.

MIT News. R. G. Traducido al español

Artículos relacionados

Epic Games Store

Shrine’s Legacy es un título de 16 bits que retoma la clásica fórmula de los RPG de Super Nintendo

Un joven héroe valiente, un mago misterioso, gemas mágicas y un tirano con tanta armadura que parece que no pueda ni moverse. ¿Os suena de algo? Shrine’s Legacy, el título debut de Positive Concept Games, se inspira en conceptos que han definido los juegos de rol durante décadas. Su protagonista, Rio Shrine, se embarca en una aventura para reunir ocho gemas elementales y restaurar la espada de Shrine (Sword of Shrine), la clave para derrotar al malvado Aklor.

Continuar leyendo...
Scroll al inicio