El Portal de las Tecnologías para la Innovación

Robots Empowered by AI Foundation Models y las oportunidades para 6G

Este artículo analiza FM en robótica, explora el potencial de la tecnología 6G para robótica, e introduce un prototipo de sistema robótico 6G.

1 Introducción

La visión global para desarrollar tecnologías robóticas demuestra la importancia crucial de integrar la inteligencia artificial (IA) en los robots. En los Estados Unidos, la edición 2024 de «A Roadmap for US Robotics: Robotics for a Better Tomorrow» de la Iniciativa Nacional de Robótica (NRI) destaca a la IA como una fuerza fundamental. La hoja de ruta describe los avances en el aprendizaje automático (ML), la investigación de inteligencia general artificial (AGI), la automatización generalizada y la convergencia de la IA con la robótica. También enfatiza la IA personalizada, la ética de la IA y el descubrimiento científico impulsado por la IA, todo dirigido a dar forma a la economía, la fuerza laboral y la seguridad nacional.

La «Agenda de Innovación y Despliegue de Investigación Estratégica (SRIDA)» conjunta de la Unión Europea para la asociación de IA, datos y robótica subraya un enfoque centrado en el ser humano y confiable para la IA y la robótica. Esta agenda se centra en fomentar la colaboración entre la industria, la academia y los formuladores de políticas para impulsar la investigación, el desarrollo y el despliegue. Su objetivo es establecer a Europa como un líder mundial en IA y robótica estimulando la inversión y abordando desafíos clave, mejorando así los resultados económicos, sociales y ambientales en alineación con los valores y derechos europeos.

El «14o Plan Quinquenal para el Desarrollo de la Industria Robot» de China enfatiza la necesidad de mejorar las capacidades de inteligencia y redes de los robots a través de la integración de IA, 5G, big data y computación en la nube. Este plan garantiza la funcionalidad, la red y la seguridad de los datos de los sistemas robóticos, avanzando así las capacidades tecnológicas y las aplicaciones industriales de la nación.

Para lograr sus capacidades de percepción, los sistemas robóticos de IA clásicos utilizan métodos de aprendizaje profundo (DL) implementados en un entorno controlado. Aunque este enfoque proporciona una forma efectiva de aprender múltiples habilidades, no solo requiere un tiempo de capacitación significativo y un amplio esfuerzo de ingeniería para configurar cada tarea, sino que también carece de cambios de distribución y generalización.

Si bien esto puede parecer razonable para una sola tarea, los costos de aprendizaje y el esfuerzo podrían aumentar exponencialmente cuando se realiza la multitarea en un experimento del mundo real, introduciendo nuevos desafíos dentro del dominio robótico.

La construcción de sistemas robóticos generalizables enfrenta varios desafíos. Al mismo tiempo, sin embargo, ha surgido un nuevo campo de estudio que podría ayudar a mejorar los sistemas robóticos. Un modelo de base (FM) es un modelo de IA a gran escala que sirve como un marco versátil y de propósito general para varias tareas posteriores al adaptarse a aplicaciones específicas. Los FM están pre-entrenados en datos a escala de Internet, presentando capacidades superiores de generalización y extendiendo los conceptos de aprendizaje por transferencia (TL) y escala de modelos.

Permiten a los robots comprender y ejecutar tareas de forma autónoma a partir de instrucciones de lenguaje natural de alto nivel, descomponer dinámicamente tareas complejas y ajustar las acciones en función de la retroalimentación en tiempo real, minimizando la intervención humana. Además, la conciencia de la situación se mejora al permitir la comprensión semántica del entorno utilizando datos multimodales de sensores de uso común, como cámaras, LiDAR y micrófonos.

Estos avances alejan a los robots de operaciones rígidas y predefinidas y modelos estrechamente enfocados, moviéndolos hacia la ejecución dinámica e inteligente de tareas y la comprensión ambiental, mejorando significativamente su autonomía, flexibilidad y eficiencia.

En este documento, analizamos los esfuerzos actuales de académicos e industrias y las direcciones futuras que tomarán en la aplicación de FM a la robótica. Además, analizamos el impacto de la tecnología 6G en la robótica, destacando las aplicaciones futuras, la integración con AI-FM y los requisitos de red. Este documento está estructurado de la siguiente manera: La Sección 2 proporciona el análisis de vanguardia (SOTA) de las FM actuales para robótica. La sección 3 proporciona una breve descripción del esfuerzo de estandarización de las principales entidades. La Sección 4 ilustra ampliamente las oportunidades de mercado e investigación de 6G e IA aplicadas a la robótica. La Sección 5 presenta nuestro prototipo robótico 6G. Y finalmente, la Sección 6 presenta conclusiones, comentarios y futuras direcciones de investigación.

2 Modelos de Fundación SOTA para Robots

Esta sección proporciona una visión general de los tipos, roles y capacidades de FM específicos para el dominio robótico. Utilizamos terminología que es consistente con la norma ISO 8373:2021 para robots y dispositivos robóticos. Este estándar internacional es clave para garantizar que la comunicación sea clara y consistente en diferentes industrias, campos académicos y regiones geográficas involucradas en la robótica.

2.1 Habilitadores FM para Robótica

Los beneficios clave de las FM para los robots se resumen de la siguiente manera:

  • Base de conocimiento integral: Los FM proporcionan a los robots un amplio conocimiento de múltiples dominios, lo que les permite comprender y ejecutar una amplia gama de tareas. Esta base de conocimientos permite a los robots realizar operaciones complejas en diversos campos, sin necesidad de una amplia reprogramación para cada tarea específica.
  • Comprensión del lenguaje natural: Los FM poseen fuertes habilidades de procesamiento del lenguaje natural (NLP), lo que permite a los robots comprender e interactuar utilizando el lenguaje humano. Esto simplifica la instrucción de tareas y la comunicación, permitiendo a los usuarios proporcionar comandos y recibir comentarios en un lenguaje natural.
  • Conciencia de situación multimodal: Los FM mejoran la conciencia de la situación multimodal de los robots al permitir la comprensión semántica de su entorno utilizando varios sensores, como cámaras RGB, LiDAR y micrófonos. Los robots pueden comprender las conexiones lógicas y geométricas entre objetos, evaluar situaciones actuales, interpretar eventos y predecir sucesos futuros.
  • Aprendizaje cero y pocos disparos: Los FM sobresalen en el aprendizaje de disparo cero y de pocos disparos, lo que permite a los robots realizar tareas con un entrenamiento mínimo o sin tareas específicas. Esto mejora la flexibilidad y la adaptabilidad, lo que permite a los robots manejar nuevas tareas y entornos sin necesidad de una amplia capacitación.

2.2 FM Macro Tipologías para Robótica

Los FM tienen el potencial de desbloquear nuevas posibilidades en el dominio de la robótica. Entre los FM, se puede utilizar una subclase de modelos preentrenados para mejorar diversas tareas, como la percepción, la predicción, la planificación y el control:

  • Modelos de idiomas grandes (LLMs): Estos modelos permitirían a los robots comprender las instrucciones del lenguaje natural y potencialmente responder con el lenguaje natural.
  • Transformadores de visión (ViTs) o transformadores multimodales: Estos modelos serían cruciales para permitir a los robots interpretar datos visuales de su entorno a través de cámaras y sensores LiDAR.
  • Modelos de lenguaje multimodal incorporados: Esta es una categoría más amplia que podría combinar las funcionalidades de LLM y ViT para permitir a los robots comprender no solo las instrucciones del lenguaje natural sino también el contexto visual de esas instrucciones.
  • Modelos generativos visuales (VGM): En términos de la evolución detrás de los modelos de difusión, los VGM entrenados en conjuntos de datos masivos pueden crear escenarios realistas para que los robots practiquen virtualmente tareas. Esto mejora la percepción, refina el movimiento y proporciona diversos datos de entrenamiento.

Estos avances destacan el potencial del uso de FM en el campo de la robótica para el desarrollo de modelos que son más específicos de este campo en lugar de simplemente combinar modelos de visión y lenguaje existentes.

2.3 FM robóticos: Reconocimiento de Intenciones y Razonamiento Visual

Recientemente ha habido un creciente interés en la IA robótica basada en la transformación por sus fuertes capacidades de reconocimiento de intenciones y razonamiento visual. Esta arquitectura utiliza incrustaciones de lenguaje y observaciones como entradas y salidas de acciones predichas. Para lograr políticas robustas y generalizables de largo horizonte, se ha introducido un modelo de visión-lenguaje-acción (VLA) aplicado a la manipulación robótica condicionada por el lenguaje (LcRM) para entradas de control visomotor. Este enfoque reduce aún más la brecha entre la física de robots y la IA, mejorando dos aspectos principales:

  • Planificación de alto nivel: Una instrucción lingüística compleja se puede convertir y dividir en una secuencia de primitivas de acción básica, que luego son ejecutadas por controladores de bajo nivel. PaLM-E, una combinación de PaLM y ViT, consta de hasta 562B parámetros y sirve como una política de alto nivel para la planificación y el razonamiento.
  • Aprendizaje de extremo a extremo:Un LLM puede ser entrenado para generar directamente acciones basadas en instrucciones y observaciones. RT-1 y RT-2 son ejemplos de modelos multitarea que tokenizan las entradas y acciones de salida del robot para permitir una inferencia eficiente en tiempo de ejecución. Tal enfoque hace factible el control en tiempo real. Del mismo modo, Octo proporciona capacitación y ajuste de políticas robóticas generalistas (GRP) utilizando métodos de difusión basados en transformadores. Fuera de la caja, Octo admite múltiples entradas de cámara RGB y robots de múltiples brazos, y puede ser instruido a través de comandos de idioma o imágenes de objetivos. Además, Octo utiliza una estructura de atención modular en su columna vertebral del transformador. Esto permite que se ajuste efectivamente a las configuraciones de robots con nuevas entradas sensoriales, espacios de acción y morfologías, utilizando solo un pequeño conjunto de datos de dominio de destino y presupuestos de cómputo accesibles.

Plataformas de Simulación

Se han desarrollado varios marcos para simular robots impulsados por algoritmos de planificación, control o ambos basados en IA. Se han identificado dos familias principales de marcos como posibles plataformas en las que basar nuestro análisis. Hay una tercera plataforma, NVIDIA Isaac Lab, pero debido a la necesidad de una licencia comercial patentada, no se considera.

RoboCasa es un marco de simulación para entrenar robots para realizar tareas cotidianas. Se proporcionan métodos para entrenar modelos basados en transformadores en una combinación de datos de robots propioceptivos (por ejemplo, lecturas de codificadores conjuntos) e imágenes (por ejemplo, desde una cámara en el robot o en el mundo).

MuJoCo (Multi-Joint dynamics with Contact) es un motor de física diseñado específicamente para simular sistemas físicos, particularmente robots. Las simulaciones realistas de MuJoCo se pueden utilizar para entrenar FM para diversas tareas robóticas. Tales FM pueden aprender interactuando con el entorno virtual, manipulando objetos virtuales y recibiendo comentarios sobre sus acciones. Estos datos de entrenamiento se pueden transferir al robot real, lo que le permite realizar tareas similares en el mundo físico.

HABITAT es un entorno de simulación 3D de alto rendimiento diseñado específicamente para capacitar a agentes de IA incorporados, como robots y asistentes virtuales. HABITAT simula varios sensores (por ejemplo, cámaras RGB-D) comúnmente utilizados en robots, proporcionando a los FM información sensorial diversa para la percepción y la toma de decisiones.

3 Casos de Uso de Robots Empowered por 6G y AI

En la industria de las telecomunicaciones, el R&D y los esfuerzos de estandarización han estado explorando las aplicaciones de la red móvil en robótica. El Proyecto de Asociación de 3a Generación (3GPP) System Aspect 1 (SA1) ha estudiado los robots de servicio e identificado ocho casos de uso. Estos incluyen protección de seguridad cooperativa en tiempo real, recopilación de datos de comunicación inteligente y fusión utilizando sensores multimodales en múltiples robots, y robots autónomos y teleoperados que trabajan en la actuación y entrega de minería. Se han discutido algunos aspectos técnicos, como la comunicación táctil y multimodal, la detección integrada y la comunicación (ISAC), el metaverso y las comunicaciones de alto nivel.

La asociación one6G tiene como objetivo evolucionar, probar y promover soluciones de comunicación celular e inalámbrica de próxima generación. Prevé que las aplicaciones robóticas penetrarán en varias áreas de aplicación y sectores sociales. Además, ha publicado una serie de documentos técnicos abiertamente disponibles sobre 6G y robótica, que proporcionan discusiones en profundidad sobre las funciones habilitadoras de 6G a los robots (por ejemplo, comunicación, AI/ML e ISAC)1. Además, se proponen varios casos de uso de robots habilitados por 6G, como robots colaborativos, ayuda en casos de desastre, planificación de acciones, robots industriales y asistencia médica.

Los proyectos emblemáticos de investigación 6G financiados por la UE, Hexa-X y Hexa-X-II, han discutido y analizado varios casos y requisitos de uso de 6G, centrándose en robots autónomos que pueden comunicarse entre sí, con otras máquinas y con humanos cercanos para realizar tareas individuales que contribuyen a un objetivo cooperativo común. Uno de los que se discutió y analizó fue la cooperación de robots móviles (CMR).

Capacidades 6G aplicadas a diferentes niveles de control de robots

Figura 1 Capacidades 6G aplicadas a diferentes niveles de control de robots

4 Oportunidades para 6G

El control de robots se divide comúnmente en cuatro niveles: nivel de tarea, nivel de acción, nivel de primitivas y nivel de servo [24, 25]. Con la integración de la IA y las capacidades de detección de 6G, los robots están preparados para lograr un nivel de inteligencia aún mayor, superando el control tradicional a nivel de tarea. Imaginamos estas capacidades mejoradas como parte de un nuevo nivel llamado meta-nivel. En este nivel, los robots podrán — de manera totalmente autónoma — identificar problemas, definir sus tareas y adaptarse a entornos dinámicos basados en metadefiniciones de sus roles, misiones y reglas, además de poseer conciencia de situación en tiempo real. La Figura 1 ilustra la interoperabilidad entre los niveles, las funcionalidades ISAC y la infraestructura de IA nativa.

Nuestra visión de cómo se definirán los niveles de control para futuros robots inteligentes es la siguiente:

  • Control de nivel meta: Este nivel permite a los robots identificar problemas de forma autónoma, definir tareas y adaptarse a entornos dinámicos basados en metadefiniciones de sus roles, misiones y reglas, con conciencia de la situación en tiempo real.
  • Control a nivel de tarea: Este nivel define los objetivos generales y las misiones de los robots, que implican la planificación de alto nivel, la toma de decisiones y la descomposición de tareas. Los ejemplos incluyen «Limpiar el piso de la cocina» y «Servir una bebida espumosa baja en calorías.»
  • Control a nivel de acción: Este nivel convierte los comandos de nivel de tarea en secuencias de movimiento específicas, incluida la planificación de trayectoria y la generación de rutas. Un ejemplo es planear un camino para navegar desde la sala de estar hasta la cocina sin atropellar los juguetes de un niño.
  • Control de nivel primitivo: Este nivel implica el control directo de los actuadores del robot para seguir trayectorias planificadas, generando comandos para posiciones conjuntas, velocidades y fuerzas. Un ejemplo es controlar el brazo para moverse con precisión a lo largo de un camino para recoger un objeto.
  • Control de nivel servo: Este nivel, el más bajo, se centra en mantener un control preciso de los actuadores a través de bucles de retroalimentación. Asegura la ejecución de comandos con alta precisión y estabilidad.

Las nuevas características de ISAC y Network-for-AI (NET4AI), derivadas de la visión 6G y los esfuerzos iniciales de investigación y estandarización, podrían convertirse en habilitadores importantes para futuros robots habilitados por AI FM.

4.1 IA Nativa como Servicio, Acomodando Modelos de IA e Instalaciones Informáticas

6G tiene como objetivo proporcionar IA como servicio (AIAaS) habilitado por NET4AI, incorporando FM y otros modelos específicos de IA directamente dentro de la infraestructura de red. Esta integración proporciona varios beneficios clave:

  • Rendimiento de baja latencia: La incorporación de modelos de IA dentro de la red 6G reduce significativamente la latencia. El procesamiento de datos cerca de la fuente dentro de la red de acceso de radio (RAN) y la red central (CN) minimiza la necesidad de transmitir datos a servidores externos para su procesamiento, lo que resulta en tiempos de respuesta más rápidos.
  • Acceso a datos enriquecidos: Los modelos de IA dentro del marco 6G tienen acceso a una gran cantidad de datos de la RAN y CN, así como de ISAC. El acceso al extenso volumen de datos permite una toma de decisiones de IA más precisa y consciente del contexto, mejorando el rendimiento de las aplicaciones impulsadas por IA.
  • Integración de datos mejorada: La integración perfecta de la detección y la comunicación en 6G permite que los modelos de IA utilicen diversas fuentes de datos para un análisis más sólido y holístico. Esta integración admite aplicaciones avanzadas como monitoreo ambiental en tiempo real, control robótico adaptativo y gestión dinámica de recursos.

En comparación con la computación multi-borde convencional (MEC), 6G AIaaS ofrece una latencia mejorada y eficiencia de ancho de banda. Lo logra incorporando capacidades de IA directamente dentro de la infraestructura de red, reduciendo así el enrutamiento de datos adicional entre los servidores de borde y el sistema celular. Además, los modelos nativos de IA 6G pueden acceder a una gama más amplia de datos de toda la red (incluidos los datos de ISAC), lo que lleva a un procesamiento de IA más informado y una mejor prestación de servicios. El marco 6G también admite la asignación dinámica de recursos de IA en diferentes entidades RAN y CN, lo que permite que la implementación del servicio de IA sea más escalable y flexible. Y en comparación con los sistemas de IA robótica a bordo, la IA nativa 6G ofrece ventajas significativas. Específicamente,ejecutar AIaaS en la red generalmente ofrece un mejor rendimiento informático y, por lo tanto, una capacidad de respuesta del sistema más rápida que ejecutar AI localmente. La descarga de cálculos intensivos de IA a la red reduce el consumo de energía y los problemas de disipación de calor asociados con el procesamiento a bordo, extendiendo la vida operativa de los robots

y reduciendo costos. Además, dada la gran cantidad de datos disponibles de la red, los modelos de IA nativa 6G proporcionan una toma de decisiones más precisa y consciente del contexto. Para concluir, AIaaS debe tener la capacidad de implementar partes del «cerebro» de manera flexible en los nodos locales y de red según las necesidades dadas, como la necesidad de cumplir con los requisitos de seguridad desafiantes.

4.2 ISAC para la Conciencia Integral de la Situación del Robot

El 3GPP ha iniciado un estudio de ISAC, reconociendo su potencial para revolucionar diversas aplicaciones, incluida la robótica. El SA1 ha completado su estudio sobre ISAC (FS_Sensing), resultando en 32 casos de uso de ISAC detallados en TR22.837 [28] y requisitos de servicio especificados en TR22.137. Estos documentos consideran el enfoque integral de ISAC que incorpora la detección basada en redes de radio 3GPP y sensores que no son 3GPP, como cámaras y LiDAR.

El ISAC de la futura red móvil es beneficioso para las aplicaciones de robots en los siguientes aspectos:

  • Detección integrada, comunicación e IA en la misma arquitectura de red estandarizada: La integración de la detección, la comunicación y los FM de IA en una arquitectura de red 6G unificada ofrece beneficios transformadores para futuros robots inteligentes. Este enfoque mejora la toma de decisiones en tiempo real y la conciencia de la situación al proporcionar a los robots acceso inmediato a datos completos en tiempo real.
  • Sensación en red para una conciencia integral de la situación: La integración de la detección, la comunicación y los FM de IA en una arquitectura de red 6G unificada permite a los robots lograr una conciencia integral de la situación a través de la detección en red. En lugar de depender únicamente de los sensores integrados de un robot, ISAC proporciona acceso a una gama más rica de datos de varios nodos de detección en la red, incluidos otros robots y sensores ambientales.
  • Detección y posicionamiento integrados: Los robots móviles requieren capacidades de posicionamiento para encontrar objetos y realizar la navegación. ISAC se puede utilizar para mejorar la precisión de posicionamiento mediante la fusión de la detección pasiva y las funciones de posicionamiento activo de la red móvil.
  • Sensing digital twin (DT) construcción: Se necesitan datos de detección precisos y en tiempo real para construir DT para robots. En el futuro, ISAC podría apoyar la creación de réplicas virtuales precisas y dinámicas para DT efectivos, mejorando la colaboración entre múltiples robots.

4.3 Mejora de Robots Futuros con Comunicación 6G

El advenimiento de la comunicación 6G mejorará significativamente los robots futuros al aprovechar la hiperfiabilidad, la latencia ultrabaja, las disposiciones de calidad de servicio avanzada (QoS) y el interfuncionamiento con el software y los protocolos robóticos.

  • Comunicación hiper fiable y de baja latencia (HRLLC): HRLLC se ha vuelto crucial para aplicaciones industriales si el control del robot se centraliza. 6G proporciona canales de comunicación hiperfiables y estables con un mínimo de fluctuación, lo que garantiza un funcionamiento y sincronización más suaves de los sistemas robóticos. Esto es vital para tareas que requieren alta precisión y confiabilidad.
  • Marco avanzado de QoS: 6G presenta marcos avanzados de QoS que asignan dinámicamente recursos de red en función de las necesidades específicas de los FM de IA y las aplicaciones robóticas especializadas. A través de sus capacidades mejoradas de rendimiento de datos, 6G permite la transmisión eficiente de datos de entrenamiento de IA, datos de sensores y análisis en tiempo real, apoyando procesos complejos de toma de decisiones y algoritmos de aprendizaje.
  • Nuevos protocolos para el interfuncionamiento: El soporte de 6G para el interfuncionamiento continuo con software robótico y protocolos de comunicación como Data Distribution Service (DDS), Open Platform Communications Unified Architecture (OPC UA), Message Queuing Telemetry Transport (MQTT) y Zenoh permite a los robots beneficiarse de sus capacidades sin requerir un rediseño extenso de los sistemas existentes.
  • Teleoperación y formación en circuito cerrado en tiempo real: 6G permite la teleoperación de circuito cerrado en tiempo real de robots por humanos o IA. Esto es crucial para resolver tareas complejas desconocidas, así como para entrenar modelos de IA para adquirir nuevas habilidades a través del aprendizaje por imitación. A través de la sólida infraestructura de comunicación de 6G, los operadores pueden controlar robots de forma remota en tiempo real, proporcionando capacitación práctica que acelera el aprendizaje y la adaptación de la IA.
  • Nuevas oportunidades de negocio: El poder de la IA, junto con las capacidades de detección 6G tanto del robot como de la red, desbloquea nuevas oportunidades de negocio para los propietarios de redes y los proveedores de servicios de robots. Las operaciones de robots en tiempo real requieren la integración de funciones de detección, IA y control con baja latencia y alto rendimiento de datos para garantizar un rendimiento eficiente y sin interrupciones. Dependiendo del despliegue de los agentes AIaaS, la integración oportuna de los datos de detección de diversas fuentes es esencial. Además, los operadores y proveedores robóticos también pueden favorecer servicios intensivos en recursos a través de una solución de red móvil integrada que garantiza contratos y confianza para una operación ininterrumpida y confiable.

5 MELISAC — Robot con alimentación FM para 6G Prueba de concepto

En esta sección, presentamos MELISAC (Machine Learning Integrated Sensing and Communication), nuestro robot compuesto de prueba de concepto (PoC) que integra varias tecnologías avanzadas, incluido el control robótico inteligente, el entrenamiento de robots en línea y ISAC.

5.1 Configuración de hardware

MELISAC es un robot compuesto de doble brazo que consta de dos robots colaborativos articulados industriales (cobots), el UR5e2 y un vehículo guiado automatizado (AGV). El UR5e está montado en un marco de aluminio encima del AGV. Esta configuración permite la navegación autónoma y la manipulación precisa de objetos. Para los efectores finales, MELISAC está equipado con MiaHand3, un par de manos robóticas antropomórficas que le permiten realizar tareas de una manera similar a las manos humanas. Esta capacidad es particularmente beneficiosa para entrenar modelos de IA que controlan robots al demostrar la ejecución de tareas humanas.

Además, se implementa un sistema de radio sub-THz con capacidad ISAC en el robot, con su antena montada en el marco del cuerpo o como un efector final. Una computadora local maneja el cálculo a bordo para el control de acción y el procesamiento de señales.

MELISAC en Hannover Messe 2023 y su arquitectura de software

Figura 2 MELISAC en Hannover Messe 2023 y su arquitectura de software

5.2 Arquitectura de Software

En nuestra implementación, el procesamiento de datos del sensor y la planificación de la acción son administrados por la computadora local, mientras que las tareas computacionalmente intensivas (por ejemplo, inferencia de IA) se descargan en servidores periféricos, como se ilustra en la Figura 2.

  • Brazos cobot y controladores AMR: Estos son los controladores nativos proporcionados por los fabricantes de robots. Exponen interfaces de programación de aplicaciones (API) para ejecutar funciones de robot de bajo nivel (por ejemplo, parada de emergencia, detección de obstáculos y cinemática/cinemática inversa).
  • API de adaptación: Esta es una capa de adaptación que abstrae el control de bajo nivel para el controlador de alto nivel. Es esencial para funciones de control basadas en FM agnósticas de hardware.
  • Interfaces hombre-máquina (HMI): Estas son modalidades para las interacciones humano-robot, como el habla y los gestos.
  • Detección de radiofrecuencia (RF): Esto se refiere al sistema de RF para detección de radio integrada y comunicación. La detección por radio proporciona una capa de percepción adicional junto con cámaras y micrófonos RGB-D.

Debido a sus requisitos de computación y memoria, los SOTA FM deben implementarse en servidores potentes ubicados en la nube de borde. Cada FM se carga en un agente de IA, que combina su FM con las pilas de software necesarias. Los agentes de IA interactúan entre sí en un sistema multiagente basado en texto ubicado en la nube de borde. La computadora local se comunica con los componentes del robot y el agente de IA en la nube de borde usando ROS2.

  • Agente de chat: un agente de IA impulsado por un LLM con un gran vocabulario y conocimiento general capaz de entablar conversaciones con humanos sobre diversos temas.
  • Agente de visión: un agente de FM en lenguaje visual especializado en extraer semántica de entradas de video e imagen, así como clasificar y localizar objetos de interés.
  • Agente robótico: un agente robótico-FM responsable de la planificación de alto nivel de las acciones del robot en función de las entradas del agente de chat (solicitudes de usuario) y el agente de visión (contexto ambiental).
  • Agente de voz: proporciona conversión de voz a texto y de texto a voz en tiempo real.

Los FM robóticos a menudo pueden tener dificultades con tareas desconocidas en entornos no estructurados. En tales casos, un operador humano puede intervenir para demostrar la tarea. MELISAC permite que un teleoperador lo controle a través de la red utilizando datos de teleoperación para capacitación. Esta capacitación en línea de humano en el bucle agrega una capa de adaptación a la FM preentrenada y debe ser continua en la nube.

5.3 Discusiones Técnicas

Modelos de extremo a extremo vs. cadena de modelos: Una pregunta clave en la construcción de robots controlados por FM es si usar un solo FM de extremo a extremo para todas las modalidades de entrada o una tubería de múltiples modelos. El enfoque de modelo único, visto en Octo, RT-1 y RT-2, a menudo tiene una mejor generalización porque todas las modalidades se entrenan juntas y permiten el control en tiempo real con una inferencia. El enfoque de tubería de modelos, a pesar de ofrecer flexibilidad, transparencia y personalización, incurre en tiempo de inferencia adicional y complejidad de integración. Los marcos existentes como Promptflow4 y DSPy5 pueden ayudar a gestionar estos desafíos. La elección depende de la disponibilidad de datos y la idoneidad del hardware. Una tarea específica de dominio con datos confidenciales podría beneficiarse de un modelo de visión en pipelined con modelos de lenguaje y acciónmientras que un modelo de extremo a extremo entrenado en grandes conjuntos de datos de Internet es mejor para tareas generales.

Integración con las API de los fabricantes de robots: Actualmente, los fabricantes proporcionan pilas de control con API de alto nivel para capacidades como localización y mapeo simultáneos (SLAM) y movimiento, mientras que el control de acción de bajo nivel permanece restringido para el cumplimiento de la seguridad. La integración de la IA en robots requiere un acceso extendido a sensores y actuadores. Dado que la sustitución completa del control de bajo nivel por soluciones basadas en FM es poco probable, se necesita un esquema de integración para integrar las funcionalidades de FM dentro de los sistemas existentes. La generación aumentada por recuperación (RAG) puede ayudar a los FM a aprender el control utilizando la documentación estándar de API de bajo nivel. Un paso de transición lógico es definir interfaces comunes entre funciones de alto nivel (potencialmente basadas en FM) y API de bajo nivel, asegurando tanto la seguridad como la funcionalidad.Esto requiere la colaboración entre fabricantes y desarrolladores de FM, siendo la estandarización de estas interfaces beneficiosa pero no esencial.

6 Conclusiones y Observaciones

Los FM robóticos, a pesar de su impresionante capacidad para captar objetos y movimientos básicos, luchan con tareas complejas. Carecen de una comprensión matizada de la física del mundo real, lo que dificulta su capacidad para realizar acciones que requieren una manipulación sutil. Además, la alta precisión y la destreza permanecen fuera del alcance de los FM robóticos actuales. Además de estas limitaciones físicas, los FM necesitan más que instrucciones básicas para tareas complejas y no pueden aprender habilidades intrincadas simplemente observando. Estas deficiencias se ven agravadas por frecuencias de control lentas que restringen su capacidad de operar en entornos de alta velocidad en tiempo real. Incluso para tareas que requieren movimientos suaves y precisos, los FM no son adecuados. Además de todo esto, entrenarlos para acciones completamente nuevas sin ejemplos previos sigue siendo un desafío significativo. Estas limitaciones,junto con la falta de sistemas de control de robots confiables y seguros, resalte la necesidad de avances significativos en FM robóticos.

Para adaptarse a los avances futuros, es necesario aumentar los FM con los modelos de IA específicos de la tarea, la tecnología DT y los recursos informáticos de alto rendimiento. La integración de IA especializada promete mejorar la precisión y la destreza, mientras que la tecnología DT ofrece simulaciones físicas avanzadas y entrenamiento de IA. Esto fomenta una comprensión y predicción más profunda de las interacciones físicas. El desarrollo de sistemas inteligentes de control híbrido que incorporen planificación de alto nivel de FM, IA específica de la tarea para habilidades especializadas y métodos tradicionales para la ejecución de bajo nivel garantizará operaciones más fluidas y eficientes. Además, aprovechar las herramientas avanzadas de computación y programación para elevar las frecuencias de control y la capacidad de respuesta en tiempo real permitirá a los robots manejar las tareas dinámicas de manera más efectiva.Este enfoque integral mejorará significativamente la autonomía robótica, la flexibilidad y la eficiencia, permitiéndoles navegar en escenarios complejos del mundo real con mayor competencia. El advenimiento de 6G, con su avanzada IA y capacidades de detección, promete impulsar a los robots más allá del control tradicional a nivel de tarea, lo que les permite operar a un nuevo nivel meta. Esto les permitirá identificar problemas autónomos, definir tareas y adaptarse a entornos dinámicos. Y al aprovechar el ISAC y AIaaS de 6G, estos robots pueden identificar tareas y resolver problemas con mayor autonomía y eficiencia, guiados por las metadefiniciones de sus roles, misiones y reglas, además de poseer conciencia de la situación en tiempo real.empoderándolos para navegar escenarios complejos del mundo real con mayor competencia. El advenimiento de 6G, con su avanzada IA y capacidades de detección, promete impulsar a los robots más allá del control tradicional a nivel de tarea, lo que les permite operar a un nuevo nivel meta. Esto les permitirá identificar problemas autónomos, definir tareas y adaptarse a entornos dinámicos. Y al aprovechar el ISAC y AIaaS de 6G, estos robots pueden identificar tareas y resolver problemas con mayor autonomía y eficiencia, guiados por las metadefiniciones de sus roles, misiones y reglas, además de poseer conciencia de la situación en tiempo real.empoderándolos para navegar escenarios complejos del mundo real con mayor competencia. El advenimiento de 6G, con su avanzada IA y capacidades de detección, promete impulsar a los robots más allá del control tradicional a nivel de tarea, lo que les permite operar a un nuevo nivel meta. Esto les permitirá identificar problemas autónomos, definir tareas y adaptarse a entornos dinámicos. Y al aprovechar el ISAC y AIaaS de 6G, estos robots pueden identificar tareas y resolver problemas con mayor autonomía y eficiencia, guiados por las metadefiniciones de sus roles, misiones y reglas, además de poseer conciencia de la situación en tiempo real.Esto les permitirá identificar problemas autónomos, definir tareas y adaptarse a entornos dinámicos. Y al aprovechar el ISAC y AIaaS de 6G, estos robots pueden identificar tareas y resolver problemas con mayor autonomía y eficiencia, guiados por las metadefiniciones de sus roles, misiones y reglas, además de poseer conciencia de la situación en tiempo real.Esto les permitirá identificar problemas autónomos, definir tareas y adaptarse a entornos dinámicos. Y al aprovechar el ISAC y AIaaS de 6G, estos robots pueden identificar tareas y resolver problemas con mayor autonomía y eficiencia, guiados por las metadefiniciones de sus roles, misiones y reglas, además de poseer conciencia de la situación en tiempo real. Huawei News. Traducido al español

Artículos relacionados

Scroll al inicio