Un nuevo enfoque podría permitir ayudantes robóticos intuitivos para entornos domésticos, laborales y de almacén.
Para un robot, el mundo real es mucho para asimilar. Dar sentido a cada punto de datos en una escena puede requerir una gran cantidad de esfuerzo y tiempo computacional. Usar esa información para luego decidir cómo ayudar mejor a un humano es un ejercicio aún más espinoso.
Ahora, los robotistas del MIT tienen una forma de cortar el ruido de los datos, para ayudar a los robots a centrarse en las características de una escena que son más relevantes para ayudar a los humanos.
Su enfoque, que denominan acertadamente “Relevancia,” permite que un robot use señales en una escena, como información de audio y visual, para determinar un objetivo humanizado y luego identificar rápidamente los objetos que tienen más probabilidades de ser relevantes para cumplir ese objetivo. Luego, el robot lleva a cabo un conjunto de maniobras para ofrecer de manera segura los objetos o acciones relevantes al ser humano.
Los investigadores demostraron el enfoque con un experimento que simuló un desayuno buffet de conferencia. Configuraron una mesa con varias frutas, bebidas, bocadillos y vajilla, junto con un brazo robótico equipado con un micrófono y una cámara. Aplicando el nuevo enfoque de Relevancia, demostraron que el robot pudo identificar correctamente un objetivo humano y ayudarlos adecuadamente en diferentes escenarios.
En un caso, el robot tomó señales visuales de un humano que buscaba una lata de café preparado, y rápidamente le entregó a la persona leche y un palo de revuelo. En otro escenario, el robot retomó una conversación entre dos personas que hablaban de café y les ofreció una lata de café y crema.
En general, el robot fue capaz de predecir un objetivo humano con una precisión del 90 por ciento e identificar objetos relevantes con una precisión del 96 por ciento. El método también mejoró la seguridad de una robot, reduciendo el número de colisiones en más del 60 por ciento, en comparación con la realización de las mismas tareas sin aplicar el nuevo método.
“Este enfoque de habilitar la relevancia podría hacer que sea mucho más fácil para un robot interactuar con los humanos,” dice Kamal Youcef-Toumi, profesor de ingeniería mecánica en el MIT. “Un robot no tendría que hacerle tantas preguntas a un humano sobre lo que necesita. Simplemente tomaría activamente información de la escena para descubrir cómo ayudar.”
El grupo Youcef-Toumiars está explorando cómo los robots programados con Relevance pueden ayudar en la fabricación inteligente y la configuración del almacén, donde imaginan robots trabajando junto y ayudando intuitivamente a los humanos.
Youcef-Toumi, junto con los estudiantes graduados Xiaotong Zhang y Dingcheng Huang, presentarán su nuevo método en la Conferencia Internacional de Robótica y Automatización (ICRA) del IEEE en mayo. El trabajo se basa en otro papel presentado en ICRA el año anterior.
Encontrar enfoque
El enfoque de los equipos está inspirado en nuestra propia capacidad para medir qué es relevante en la vida diaria. Los seres humanos pueden filtrar las distracciones y centrarse en lo que es importante, gracias a una región del cerebro conocida como el Sistema de Activación Reticular (RAS). El RAS es un conjunto de neuronas en el tronco encefálico que actúa inconscientemente para eliminar estímulos innecesarios, de modo que una persona pueda percibir conscientemente los estímulos relevantes. El RAS ayuda a prevenir la sobrecarga sensorial, impidiéndonos, por ejemplo, fijarnos en cada artículo en un mostrador de la cocina y, en cambio, ayudarnos a concentrarnos en verter una taza de café.
“Lo sorprendente es que estos grupos de neuronas filtran todo lo que no es importante, y luego hace que el cerebro se centre en lo que es relevante en ese momento, explica Youcef-Toumi. “Eso básicamente es lo que es nuestra propuesta.”
Él y su equipo desarrollaron un sistema robótico que imita ampliamente la capacidad de los RASas para procesar y filtrar información de forma selectiva. El enfoque consta de cuatro fases principales. La primera es una etapa de ver y aprender “perception”, durante la cual un robot toma señales de audio y visuales, por ejemplo, de un micrófono y una cámara, que se alimentan continuamente en un kit de herramientas AI “.” Este kit de herramientas puede incluir un modelo de lenguaje grande (LLM) que procesa conversaciones de audio para identificar palabras clave y frases, y varios algoritmos que detectan y clasifican objetos, humanos, acciones físicas y objetivos de tareas. El kit de herramientas de IA está diseñado para ejecutarse continuamente en segundo plano, de manera similar al filtrado subconsciente que realiza el RAS cerebral.
La segunda etapa es una fase “trigger check”, que es una verificación periódica que el sistema realiza para evaluar si algo importante está sucediendo, como si un humano está presente o no. Si un ser humano ha entrado en el medio ambiente, la tercera fase de systemas se activará. Esta fase es el corazón del sistema de equipos, que actúa para determinar las características en el entorno que probablemente sean relevantes para ayudar al ser humano.
Para establecer la relevancia, los investigadores desarrollaron un algoritmo que toma predicciones en tiempo real hechas por el kit de herramientas de IA. Por ejemplo, el LLM de toolkitiks puede captar la palabra clave “coffee,” y un algoritmo de clasificación de acción puede etiquetar a una persona que busca una taza como teniendo el objetivo de “hacer café.” El método de relevancia de los equipos tendría en cuenta esta información para determinar primero la “clase” de objetos que tienen la mayor probabilidad de ser relevantes para el objetivo de “hacer café.” Esto podría filtrar automáticamente clases como “frutas” y “bocadillos,” a favor de “tazas” y “cremas.” El algoritmo luego se filtraría aún más dentro de las clases relevantes para determinar los “elementos más relevantes.” Por ejemplo, basado en señales visuales del entorno,el sistema puede etiquetar una taza más cercana a una persona como más relevante — y útil — que una taza que está más lejos.
En la cuarta y última fase, el robot tomaría los objetos relevantes identificados y planificaría un camino para acceder físicamente y ofrecer los objetos al ser humano.
Modo de ayuda
Los investigadores probaron el nuevo sistema en experimentos que simulan un desayuno buffet de conferencias. Eligieron este escenario basado en el conjunto de datos de Acciones de Desayuno disponible públicamente, que comprende videos e imágenes de actividades típicas que las personas realizan durante el desayuno, como preparar café, cocinar panqueques, hacer cereales y freír huevos. Las acciones en cada video e imagen están etiquetadas, junto con el objetivo general (freír huevos, en lugar de hacer café).
Usando este conjunto de datos, el equipo probó varios algoritmos en su kit de herramientas de IA, de modo que, al recibir acciones de una persona en una nueva escena, los algoritmos podrían etiquetar y clasificar con precisión las tareas y objetivos humanos, y los objetos relevantes asociados.
En sus experimentos, establecieron un brazo robótico y una pinza e instruyeron al sistema para que ayudara a los humanos cuando se acercaban a una mesa llena de varias bebidas, bocadillos y vajilla. Descubrieron que cuando no había humanos presentes, el kit de herramientas de IA de las robots operaba continuamente en segundo plano, etiquetando y clasificando objetos en la mesa.
Cuando, durante una verificación de activación, el robot detectó a un humano, llamó la atención, encendió su fase de Relevancia e identificó rápidamente los objetos en la escena que tenían más probabilidades de ser relevantes, según el objetivo humanizados, que fue determinado por el kit de herramientas de IA.
“Relevance puede guiar al robot para generar asistencia fluida, inteligente, segura y eficiente en un entorno altamente dinámico, dice el coautor Zhang.
En el futuro, el equipo espera aplicar el sistema a escenarios que se asemejan a los entornos de lugar de trabajo y almacén, así como a otras tareas y objetivos que generalmente se realizan en entornos domésticos.
“me gustaría probar este sistema en mi casa para ver, por ejemplo, si estoy leyendo el periódico, tal vez pueda traerme café. Si estoy lavando la ropa, puede traerme una cápsula de lavandería. Si estoy haciendo la reparación, puede traerme un destornillador,” Zhang dice. “Nuestra visión es permitir interacciones humano-robot que pueden ser mucho más naturales y fluidas.”
Esta investigación fue posible gracias al apoyo y la asociación de la Ciudad Rey Abdulaziz para la Ciencia y la Tecnología (KACST) a través del Centro de Sistemas de Ingeniería Compleja en el MIT y KACST. MIT News. Ch. J. Traducido al español