El Portal de las Tecnologías para la Innovación

Presentamos Nymeria, un conjunto de datos para mejorar la predicción del movimiento humano para dispositivos AR y VR

En ECCV 2024 , Reality Labs Research publicó el conjunto de datos Nymeria . 

El conjunto de datos proporciona movimiento humano egocéntrico en la naturaleza a una escala sin precedentes, capturando un amplio espectro de personas que participan en actividades cotidianas en diversas ubicaciones. Hoy, estamos arrojando luz sobre este trabajo y sus posibles implicaciones para futuros wearables como auriculares VR/MR, gafas AI y AR y relojes inteligentes. El conjunto de datos Nymeria está disponible para descargar en projectaria.com/datasets/nymeria .

Nymeria: un conjunto de datos sobre el movimiento humano basado en la vida cotidiana

La primera vez que usas un casco de realidad virtual o mixta, vives una experiencia mágica. Con seis grados de libertad, puedes moverte libremente por entornos inmersivos, mientras que los controladores con seguimiento de movimiento o el seguimiento de manos te permiten interactuar con objetos digitales y manipularlos. Sin embargo, la magia puede verse interrumpida cuando tu avatar no coincide con tus movimientos físicos.

A medida que la tecnología portátil, como las gafas con inteligencia artificial y los relojes inteligentes, se vuelve más popular, surgen nuevas oportunidades para predecir con mayor precisión el movimiento del cuerpo humano, lo que podría generar beneficios tangibles para las experiencias del usuario final. Por ejemplo, los atletas podrían usar esta tecnología para hacer un seguimiento de sus entrenamientos a lo largo del tiempo, las personas podrían controlar mejor su postura y los trabajadores podrían identificar y corregir problemas ergonómicos.

Predecir la posición del cuerpo humano a partir de sensores egocéntricos (como los que se encuentran en los dispositivos de realidad virtual y realidad aumentada) sigue siendo un desafío técnico. Esto se debe a que el movimiento humano es complejo, los tipos de cuerpo varían y nuestra generación actual de dispositivos tiene una capacidad limitada para capturar completamente el cuerpo del usuario. Si bien los avances en sensores y técnicas analíticas son prometedores para mejorar la predicción del cuerpo humano, sigue habiendo un obstáculo importante: la falta de conjuntos de datos de investigación integrales.

Esto motivó a Reality Labs Research a desarrollar y publicar el conjunto de datos Nymeria , un paso adelante para cerrar la brecha y acelerar la investigación en la comprensión del movimiento humano egocéntrico con 300 horas de movimiento diario egocéntrico multimodal capturado en entornos naturales.

Creación del mayor conjunto de datos multimodales de movimiento humano egocéntrico

A diferencia de los conjuntos de datos existentes anteriormente para el modelado del movimiento humano, el conjunto de datos Nymeria captura el movimiento humano en la naturaleza con múltiples dispositivos egocéntricos multimodales que utilizan gafas Project Aria y pulseras miniAria. Esta constelación de sensores multimodales se aproxima a los tipos de señales que podrían utilizar los dispositivos portátiles futuros, como las gafas con inteligencia artificial y los relojes inteligentes. La captura del movimiento en la naturaleza permite a los investigadores crear tecnología de última generación para ayudar a las actividades humanas diarias.

Representando la rica diversidad de la vida cotidiana.

Para facilitar la modelización del movimiento humano que pueda funcionar en una amplia gama de personas y lugares, se reclutaron voluntarios de diversos orígenes y grupos demográficos para la investigación. A cada participante se le pidió que realizara un conjunto de 20 escenarios, como cocinar la cena, practicar deportes o pasar el rato con amigos, en diferentes entornos interiores y exteriores. Con escenarios predefinidos sin guion, los investigadores pueden comprender cómo diferentes personas realizan las mismas actividades, lo que garantiza que los métodos futuros para la comprensión del movimiento humano sean accesibles y estén disponibles para todos.

Enriquecer el movimiento corporal con lenguaje para acelerar los asistentes de inteligencia artificial del mundo físico

El conjunto de datos Nymeria está diseñado para cerrar la brecha entre el movimiento y el lenguaje natural. El conjunto de datos incluye descripciones en contexto del movimiento humano realizadas por anotadores humanos. Al enriquecer los datos con narraciones de varios niveles, desde lo básico hasta lo fino, los investigadores pueden modelar el movimiento, las acciones y las actividades humanas con diferentes niveles de granularidad con contexto, explorar técnicas avanzadas con potentes LLM como Llama y crear mejores soluciones fáciles de usar.

Si bien ya se ha demostrado que los asistentes de inteligencia artificial basados ​​en texto son valiosos, aún existe una brecha importante en su capacidad para comprender el contexto del usuario y responder de manera adecuada. El conjunto de datos de Nymeria representa un paso crucial para abordar este desafío, ya que proporciona a los investigadores una rica fuente de datos para explorar las implicaciones técnicas, de privacidad y sociales del desarrollo de dichos sistemas de una manera realista y responsable.

Empoderando la investigación

Como caso de estudio, Reality Labs Research utilizó el conjunto de datos Nymeria para desarrollar nuevos modelos de ML para la comprensión del movimiento egocéntrico. El movimiento corporal egocéntrico proporciona un contexto rico sobre el usuario, lo que ayuda a los futuros asistentes de IA personalizados a hacer sugerencias contextualmente relevantes a medida que transcurre el día. Los conjuntos de cámaras de las gafas inteligentes actuales están sesgados para capturar el campo de visión del usuario y no están posicionados de una manera que capte fácilmente el propio movimiento corporal del usuario. Dada esta limitación, el movimiento corporal egocéntrico está mal planteado para muchos escenarios. Aprovechando la escala del conjunto de datos Nymeria, los investigadores de Reality Labs desarrollaron HMD 2 , un método para rastrear el movimiento corporal egocéntrico de todo el cuerpo de los usuarios a partir de un solo par de gafas Project Aria. Con un enfoque basado en datos, los investigadores pudieron modelar los estados de movimiento ambiguos con una inferencia probabilística, al tiempo que colapsaban aún más la distribución cuando las autoobservaciones estaban disponibles. De manera similar a HMD 2 , el conjunto de datos Nymeria también facilitó EgoLM , un marco de aprendizaje multimodal unificado para modelar el movimiento y la actividad corporal con lenguaje natural, donde las mediciones de sensores sin procesar de anteojos inteligentes se utilizan para impulsar múltiples tareas, desde el seguimiento corporal y la síntesis de movimiento hasta la comprensión del contexto.

Creemos que el conjunto de datos de Nymeria ofrece oportunidades de investigación únicas para desarrollar tecnología de realidad aumentada y realidad virtual (RA/RV) y de inteligencia artificial contextual de próxima generación. Al publicar el conjunto de datos para investigación, esperamos permitir e inspirar a los investigadores a desarrollar modelos de IA con una base ética sólida, lo que en última instancia liberará todo el potencial de los sistemas de IA para beneficiar a la sociedad en su conjunto. Meta Blog. Traducido al español

Artículos relacionados

Scroll al inicio