
El sistema robótico se concentra en los objetos más relevantes para ayudar a los humanos
Un nuevo enfoque podría permitir ayudantes robóticos intuitivos para entornos domésticos, laborales y de almacén. Para un robot, el mundo real es mucho para asimilar. Dar sentido a cada punto de datos en una escena puede requerir una gran cantidad de esfuerzo y tiempo computacional. Usar esa información para luego decidir cómo ayudar mejor a un humano es un ejercicio aún más espinoso. Ahora, los robotistas del MIT tienen una forma de cortar el ruido de los datos, para ayudar a los robots a centrarse en las características de una escena que son más relevantes para ayudar a los humanos. Su enfoque, que denominan acertadamente “Relevancia,” permite que un robot use señales en una escena, como información de audio y visual, para determinar un objetivo humanizado y luego identificar rápidamente los objetos que tienen más probabilidades de ser relevantes para cumplir ese objetivo. Luego, el robot lleva a cabo un conjunto de maniobras para ofrecer de manera segura los objetos o acciones relevantes al ser humano. Los investigadores demostraron el enfoque con un experimento que simuló un desayuno buffet de conferencia. Configuraron una mesa con varias frutas, bebidas, bocadillos y vajilla, junto con un brazo robótico equipado con un micrófono y una cámara. Aplicando el nuevo enfoque de Relevancia, demostraron que el robot pudo identificar correctamente un objetivo humano y ayudarlos adecuadamente en diferentes escenarios. En un caso, el robot tomó señales visuales de un humano que buscaba una lata de café preparado, y rápidamente le entregó a la persona leche y un palo de revuelo. En otro escenario, el robot retomó una conversación entre dos personas que hablaban de café y les ofreció una lata de café y crema. En general, el robot fue capaz de predecir un objetivo humano con una precisión del 90 por ciento e identificar objetos relevantes con una precisión del 96 por ciento. El método también mejoró la seguridad de una robot, reduciendo el número de colisiones en más del 60 por ciento, en comparación con la realización de las mismas tareas sin aplicar el nuevo método. “Este enfoque de habilitar la relevancia podría hacer que sea mucho más fácil para un robot interactuar con los humanos,” dice Kamal Youcef-Toumi, profesor de ingeniería mecánica en el MIT. “Un robot no tendría que hacerle tantas preguntas a un humano sobre lo que necesita. Simplemente tomaría activamente información de la escena para descubrir cómo ayudar.” El grupo Youcef-Toumiars está explorando cómo los robots programados con Relevance pueden ayudar en la fabricación inteligente y la configuración del almacén, donde imaginan robots trabajando junto y ayudando intuitivamente a los humanos. Youcef-Toumi, junto con los estudiantes graduados Xiaotong Zhang y Dingcheng Huang, presentarán su nuevo método en la Conferencia Internacional de Robótica y Automatización (ICRA) del IEEE en mayo. El trabajo se basa en otro papel presentado en ICRA el año anterior. Encontrar enfoque El enfoque de los equipos está inspirado en nuestra propia capacidad para medir qué es relevante en la vida diaria. Los seres humanos pueden filtrar las distracciones y centrarse en lo que es importante, gracias a una región del cerebro conocida como el Sistema de Activación Reticular (RAS). El RAS es un conjunto de neuronas en el tronco encefálico que actúa inconscientemente para eliminar estímulos innecesarios, de modo que una persona pueda percibir conscientemente los estímulos relevantes. El RAS ayuda a prevenir la sobrecarga sensorial, impidiéndonos, por ejemplo, fijarnos en cada artículo en un mostrador de la cocina y, en cambio, ayudarnos a concentrarnos en verter una taza de café. “Lo sorprendente es que estos grupos de neuronas filtran todo lo que no es importante, y luego hace que el cerebro se centre en lo que es relevante en ese momento, explica Youcef-Toumi. “Eso básicamente es lo que es nuestra propuesta.” Él y su equipo desarrollaron un sistema robótico que imita ampliamente la capacidad de los RASas para procesar y filtrar información de forma selectiva. El enfoque consta de cuatro fases principales. La primera es una etapa de ver y aprender “perception”, durante la cual un robot toma señales de audio y visuales, por ejemplo, de un micrófono y una cámara, que se alimentan continuamente en un kit de herramientas AI “.” Este kit de herramientas puede incluir un modelo de lenguaje grande (LLM) que procesa conversaciones de audio para identificar palabras clave y frases, y varios algoritmos que detectan y clasifican objetos, humanos, acciones físicas y objetivos de tareas. El kit de herramientas de IA está diseñado para ejecutarse continuamente en segundo plano, de manera similar al filtrado subconsciente que realiza el RAS cerebral. La segunda etapa es una fase “trigger check”, que es una verificación periódica que el sistema realiza para evaluar si algo importante está sucediendo, como si un humano está presente o no. Si un ser humano ha entrado en el medio ambiente, la tercera fase de systemas se activará. Esta fase es el corazón del sistema de equipos, que actúa para determinar las características en el entorno que probablemente sean relevantes para ayudar al ser humano. Para establecer la relevancia, los investigadores desarrollaron un algoritmo que toma predicciones en tiempo real hechas por el kit de herramientas de IA. Por ejemplo, el LLM de toolkitiks puede captar la palabra clave “coffee,” y un algoritmo de clasificación de acción puede etiquetar a una persona que busca una taza como teniendo el objetivo de “hacer café.” El método de relevancia de los equipos tendría en cuenta esta información para determinar primero la “clase” de objetos que tienen la mayor probabilidad de ser relevantes para el objetivo de “hacer café.” Esto podría filtrar automáticamente clases como “frutas” y “bocadillos,” a favor de “tazas” y “cremas.” El algoritmo luego se filtraría aún más dentro de las clases relevantes para determinar los “elementos más relevantes.” Por ejemplo, basado en señales visuales del entorno,el sistema puede etiquetar una taza más cercana a una persona como más relevante — y útil — que una taza que está más lejos. En la cuarta y última fase, el robot tomaría