El Portal de las Tecnologías para la Innovación

El avance de la IA incorporada a través del progreso en la percepción táctil, la destreza y la interacción entre humanos y robots

Meta FAIR está lanzando públicamente varios artefactos de investigación nuevos que hacen avanzar la robótica y respaldan nuestro objetivo de alcanzar la inteligencia artificial avanzada (AMI).

  • El trabajo que compartimos hoy incluye avances en la percepción táctil, la destreza y la interacción humano-robot, todos ingredientes críticos en el camino hacia el logro de la AMI.
  • También estamos anunciando asociaciones estratégicas con GelSight Inc y Wonik Robotics para desarrollar y comercializar innovaciones de detección táctil que permitan un fácil acceso para la comunidad de investigación y ayuden a fomentar un ecosistema abierto para la IA.

Comprender e interactuar con el mundo físico (una capacidad crucial para realizar tareas cotidianas) es algo natural para los humanos, pero es una lucha para los sistemas de IA actuales. Nuestro equipo de Investigación Fundamental en IA (FAIR) está trabajando para avanzar en la creación de agentes de IA corporizados con la comunidad robótica que puedan percibir e interactuar con su entorno, así como coexistir de manera segura con los humanos, brindando asistencia tanto en el ámbito físico como en el virtual. Creemos que este es un paso fundamental en el camino hacia la inteligencia artificial avanzada (AMI).

Hoy, estamos lanzando públicamente varios nuevos artefactos de investigación que mejoran la percepción táctil, la destreza robótica y la interacción entre humanos y robots. El tacto es la primera y más crucial modalidad para que los humanos interactúen físicamente con el mundo. Para permitir que la IA perciba lo que es inaccesible a través de la visión, estamos lanzando Meta Sparsh, la primera representación táctil de propósito general que funciona con muchos sensores y muchas tareas; Meta Digit 360, una innovadora punta de dedo táctil con capacidades de detección multimodal a nivel humano; y Meta Digit Plexus, una plataforma de hardware y software estandarizada para integrar varios sensores táctiles de la punta de los dedos y la piel en una sola mano robótica. Creemos que estos avances tienen el potencial de impactar positivamente en campos como la atención médica y la fabricación al permitir que las máquinas realicen tareas complejas que requieren destreza.

También nos estamos asociando con los líderes de la industria GelSight Inc y Wonik Robotics para desarrollar y comercializar estas innovaciones de detección táctil. GelSight Inc fabricará y distribuirá Digit 360, que estará disponible para su compra el próximo año, y los miembros de la comunidad de investigación pueden presentar su solicitud a través de la convocatoria de propuestas de Digit 360 para obtener acceso anticipado. Nuestra asociación con Wonik Robotics está preparada para crear una nueva mano robótica diestra avanzada, totalmente integrada con detección táctil aprovechando Meta Digit Plexus. Wonik Robotics fabricará y distribuirá la próxima generación de Allegro Hand, cuyo lanzamiento está previsto para el próximo año. Los investigadores pueden completar un formulario de interés para mantenerse actualizados sobre este lanzamiento.

Para que los robots sean verdaderamente útiles, deben ir más allá de las tareas físicas y razonar sobre las interacciones sociales. Por eso, presentamos el parámetro PARTNR, un marco estandarizado para evaluar la planificación y el razonamiento en la colaboración entre humanos y robots. PARTNR permite realizar evaluaciones reproducibles a gran escala de modelos incorporados, como los planificadores basados ​​en LLM, en diversos escenarios de colaboración, incorporando restricciones del mundo físico como el tiempo y el espacio. Con PARTNR, nuestro objetivo es impulsar avances en la interacción entre humanos y robots y la inteligencia colaborativa, transformando los modelos de IA de «agentes» a «socios».

Meta Sparsh: Un nuevo enfoque para explorar la inteligencia física

Estamos lanzando al público Sparsh, el primer codificador de uso general para detección táctil basada en visión. El nombre Sparsh, derivado de la palabra sánscrita que significa experiencia sensorial táctil o de contacto, describe acertadamente cómo los modelos de IA pueden procesar señales táctiles digitalizadas para permitir la percepción táctil.

Los sensores táctiles basados ​​en visión vienen en varias formas, que difieren en aspectos como la forma, la iluminación y las marcas de gel. Los enfoques existentes se basan en modelos artesanales específicos para cada tarea y sensor. Esto es difícil de escalar, ya que los datos reales con etiquetas, como las fuerzas y el deslizamiento, pueden resultar prohibitivos de recopilar. Por el contrario, Sparsh funciona con muchos tipos de sensores táctiles basados ​​en visión en muchas tareas aprovechando los avances en el aprendizaje autosupervisado (SSL), lo que evita la necesidad de etiquetas. Es una familia de modelos entrenados previamente en un gran conjunto de datos de más de 460.000 imágenes táctiles.

Para las evaluaciones estandarizadas de los modelos táctiles, presentamos un nuevo punto de referencia que consta de seis tareas centradas en el tacto, que van desde la comprensión de las propiedades táctiles hasta la habilitación de la percepción física y la planificación diestra. Descubrimos que Sparsh supera a los modelos específicos de tareas y sensores en un promedio de más del 95 % en este punto de referencia. Al habilitar estructuras entrenadas previamente para la detección táctil, nuestro objetivo es empoderar a la comunidad para que desarrolle y escale estos modelos hacia aplicaciones innovadoras en robótica, IA y más allá.

Meta Digit 360: una punta de dedo artificial con detección táctil a nivel humano

Nos complace presentar Digit 360, un sensor táctil artificial con forma de dedo que ofrece datos táctiles detallados y enriquecidos al digitalizar el tacto con una precisión similar a la humana. Equipado con más de 18 funciones de detección, Digit 360 permitirá avances en la investigación de la percepción táctil y permitirá a los investigadores combinar sus diversas tecnologías de detección o aislar señales individuales para un análisis en profundidad de cada modalidad. Con el tiempo, esperamos que los investigadores utilicen este dispositivo para desarrollar una IA que pueda comprender y modelar mejor el mundo físico, incluida la fisicalidad de los objetos, la interacción entre humanos y objetos y la física del contacto. Digit 360 supera significativamente a los sensores anteriores, ya que detecta cambios en miniatura en los detalles espaciales y captura fuerzas tan pequeñas como 1 milinewton.

Nuestro avanzado sensor táctil multimodal con forma de dedo Digit 360 (derecha) junto a nuestro sensor táctil Digit de la generación anterior (izquierda).

Para lograrlo, desarrollamos un sistema óptico específico para la percepción táctil con un amplio campo de visión compuesto por más de 8 millones de taxels para capturar deformaciones omnidireccionales en la superficie de la punta de los dedos. Además, equipamos el sensor con muchas modalidades de detección, ya que cada interacción táctil con el entorno tiene un perfil único producido por las propiedades mecánicas, geométricas y químicas de una superficie para percibir vibraciones, sentir calor e incluso oler olores. Al aprovechar estas señales multimodales, Digit 360 ayudará a los científicos a avanzar en la investigación sobre inteligencia artificial que puede aprender sobre el mundo con mayor detalle. Con un acelerador de inteligencia artificial en el dispositivo, Digit 360 puede procesar rápidamente la información de forma local para reaccionar a estímulos como la flexión de una pelota de tenis o el pinchazo de una aguja. Puede actuar como un sistema nervioso periférico en un robot inspirado en el arco reflejo de los humanos y los animales.

Además de mejorar la destreza de los robots, este innovador sensor tiene importantes aplicaciones potenciales, desde la medicina y las prótesis hasta la realidad virtual y la telepresencia. Esta nueva lente óptica específica para el tacto puede ver las huellas en todo el contorno de la punta del dedo artificial, lo que permite captar detalles más sensibles sobre la superficie que toca el objeto. En el caso de los mundos virtuales, Digit 360 puede ayudar a fundamentar mejor las interacciones virtuales con el entorno para obtener representaciones más realistas de las propiedades de los objetos más allá de su apariencia visual. Estamos publicando todo el código y los diseños y esperamos ver a la comunidad iterar sobre este trabajo.

Meta Digit Plexus: una plataforma estandarizada para la detección táctil de manos

La mano humana es maravillosa a la hora de enviar señales al cerebro sobre la información táctil a través de la piel, desde las yemas de los dedos hasta la palma. Esto permite activar los músculos de la mano al tomar decisiones, por ejemplo, sobre cómo escribir en un teclado o interactuar con un objeto que está demasiado caliente. Para lograr una IA corporal se requiere una coordinación similar entre la detección táctil y la activación motora en una mano robótica.

Presentamos una plataforma estandarizada, Meta Digit Plexus, que ofrece una solución de hardware y software para integrar sensores táctiles en una sola mano robótica. La plataforma interconecta sensores táctiles basados ​​en visión y en la piel, como Digit, Digit 360 y ReSkin, en las puntas de los dedos, los dedos y la palma de la mano con placas de control para codificar todos los datos en una computadora central. La integración de software y los componentes de hardware de la plataforma permiten la recopilación, el control y el análisis de datos sin inconvenientes a través de un solo cable.

La creación de una plataforma estandarizada desde cero nos permite llevar el estado del arte en la investigación de la inteligencia artificial y la destreza de los robots. Hoy, compartimos el código y el diseño de Meta Digit Plexus para ayudar a reducir las barreras de entrada para que la comunidad se dedique a la investigación de la percepción táctil y la destreza.

Descargar el código y el diseño

GelSight Inc y Wonik Robotics: socios pioneros en el futuro de la robótica

Creemos que la colaboración en toda la industria es la mejor manera de hacer avanzar la robótica en beneficio de todos. Nos asociamos con los líderes de la industria, GelSight Inc y Wonik Robotics, para desarrollar y brindar acceso a robots equipados con los avances que compartimos hoy.

GelSight Inc. fabricará y distribuirá Digit 360, con el objetivo de que esté disponible para todo el mundo el próximo año. Esto ayudará a fomentar un enfoque comunitario para la investigación en robótica. Los miembros de la comunidad de investigación pueden presentar sus solicitudes a través de la convocatoria de propuestas de Digit 360 para obtener acceso anticipado.

“La colaboración con Meta para el desarrollo de Digit 360 surgió de un acuerdo inmediato sobre la visión”, afirma Youssef Benmokhtar, director ejecutivo de GelSight Inc. “Queremos alentar a los investigadores y desarrolladores a adoptar esta tecnología en sus investigaciones y hacer que la detección táctil sea omnipresente”.

También estamos colaborando con Wonik Robotics, una empresa de robótica de Corea del Sur, para desarrollar Allegro Hand, una mano robótica totalmente integrada con sensores táctiles. Basada en la plataforma Meta Digit Plexus, la próxima generación de Allegro Hand está preparada para ayudar a avanzar en la investigación robótica al facilitar a los investigadores la realización de experimentos. Wonik Robotics fabricará y distribuirá Allegro Hand, que estará disponible el año que viene. Se anima a los miembros de la comunidad que quieran mantenerse al día sobre el lanzamiento a que rellenen un formulario de interés .

“Wonik Robotics y Meta FAIR tienen como objetivo introducir las manos robóticas en empresas globales, institutos de investigación y universidades para que puedan seguir desarrollando tecnología de manos robóticas que sea segura y útil para la humanidad”, afirma el Dr. Yonmook Park, director ejecutivo y jefe de la sede de tecnología del futuro en Wonik Robotics.

PARTNR: Un nuevo referente para la colaboración entre humanos y robots

A medida que nos acercamos a un futuro con robots inteligentes y modelos avanzados de IA capaces de realizar las tareas domésticas cotidianas, es importante considerar su interacción con los humanos. Es por eso que estamos lanzando un punto de referencia para tareas de planificación y razonamiento en colaboración entre humanos y robots ( PARTNR ), diseñado para estudiar la colaboración entre humanos y robots en las actividades domésticas. El entrenamiento y la prueba de agentes sociales encarnados en hardware físico con socios humanos reales es difícil de escalar y puede plantear problemas de seguridad. Abordamos esto desarrollando PARTNR sobre Habitat 3.0 , un simulador realista de alta velocidad que admite tanto robots como avatares humanoides y permite la colaboración entre humanos y robots en entornos similares a los del hogar, con el objetivo futuro de realizar pruebas en escenarios del mundo físico.

PARTNR es el mayor modelo de referencia de su tipo, que comprende 100.000 tareas de lenguaje natural que abarcan 60 casas y más de 5.800 objetos únicos. El modelo de referencia está diseñado para evaluar el rendimiento de los grandes modelos de lenguaje y visión (LLM/VLM) en la colaboración con humanos a través de una herramienta de participación humana. Viene con varias líneas base de LLM de última generación y permite un análisis sistemático en los ejes de planificación, percepción y ejecución de habilidades. Nuestros resultados muestran que los planificadores de última generación basados ​​en LLM tienen dificultades con la coordinación, el seguimiento de tareas y la recuperación de fallas.

El proceso de transformación de los modelos de IA de agentes a socios expertos está en marcha. Al proporcionar un conjunto de datos y un punto de referencia estandarizados, PARTNR pretende impulsar la investigación y la innovación responsables en el campo de la colaboración entre humanos y robots. Esperamos que esto permita la investigación de robots que no solo puedan operar de forma aislada, sino también en presencia de personas, haciéndolos más eficientes, confiables y adaptables a las preferencias de cada persona.

Mirando hacia el futuro

La expansión de las capacidades en percepción táctil y robótica será un punto de inflexión para la comunidad de código abierto, ya que ayudará a habilitar nuevas posibilidades en la investigación médica, las cadenas de suministro, la fabricación, la energía y más. Seguimos comprometidos con la publicación pública de modelos, conjuntos de datos y software, y también creemos que compartir plataformas de hardware fomentará nuevas generaciones de investigación en inteligencia artificial robótica. A través de nuestras asociaciones con GelSight Inc y Wonik Robotics, estamos entusiasmados de poner este hardware a disposición de los investigadores para que puedan iterar sobre esta tecnología y explorar nuevos y emocionantes casos de uso. La iteración junto con la comunidad nos acercará a todos a un futuro en el que la IA y la robótica puedan servir al bien común. Meta News. Traducido al español

Artículos relacionados