El Portal de las Tecnologías para la Innovación

Presentando Meta Motivo

Un modelo de base conductual, el primero de su tipo, para agentes virtuales humanoides encarnados.

Control humanoide de cuerpo entero sin disparos a través de modelos de base conductual

Meta Motivo es un modelo de base conductual entrenado previamente con un nuevo algoritmo de aprendizaje por refuerzo no supervisado para controlar los movimientos de un agente humanoide virtual complejo. En el momento de la prueba, se puede pedir a nuestro modelo que resuelva tareas no previstas, como el seguimiento de movimientos, la adopción de poses y la optimización de recompensas, sin necesidad de aprendizaje adicional ni ajustes.

Lea el artículo de investigación

Entorno basado en la física

El modelo ha aprendido a controlar al agente, sujeto a la física de su cuerpo y del entorno. Sus comportamientos son robustos a variaciones y perturbaciones.

Diferentes indicaciones para comportamientos

Se pueden indicar al modelo movimientos para seguir, poses para alcanzar y recompensas para optimizar.

Capacidad de disparo cero

El modelo calcula el mejor comportamiento para cada indicación sin necesidad de aprendizaje ni ajuste adicional.

Explorar la investigación

Estamos lanzando el modelo preentrenado junto con el nuevo punto de referencia humanoide y el código de entrenamiento. Esperamos que esto anime a la comunidad a seguir desarrollando investigaciones para construir modelos de base de comportamiento que puedan generalizarse a tareas más complejas y, potencialmente, a diferentes tipos de agentes.

Conclusiones clave

  • Presentamos un nuevo algoritmo que basa el método de aprendizaje de refuerzo no supervisado hacia adelante y hacia atrás con un objetivo de imitación que aprovecha un conjunto de datos de trayectorias no supervisadas.
  • Con este nuevo enfoque, entrenamos Meta Motivo, un modelo de base conductual que controla un agente humanoide virtual de alta dimensión para resolver una amplia gama de tareas.
  • Evaluamos nuestro modelo utilizando un nuevo punto de referencia humanoide en tareas de seguimiento de movimiento, alcance de pose y seguimiento de movimiento. Meta Motivo logró un rendimiento competitivo con métodos específicos de la tarea, al tiempo que superó el aprendizaje automático no supervisado de última generación y las líneas de base basadas en modelos.

El algoritmo

Representaciones hacia adelante y hacia atrás con regularización condicional de políticas (FB-CPR) es un algoritmo novedoso que combina representaciones hacia adelante y hacia atrás no supervisadas [ 

1 , 2 , 3 ] con políticas de regularización de pérdida de aprendizaje por imitación para cubrir los estados observados en un conjunto de datos de trayectorias no etiquetadas. Nuestro algoritmo se entrena en línea a través del acceso directo al entorno y aprende fundamentalmente una representación que alinea la incorporación de estados, movimientos y recompensas en el mismo espacio latente. Como resultado, podemos entrenar modelos cuyas políticas se basan en comportamientos útiles, al mismo tiempo que son capaces de realizar inferencias de cero disparos en una amplia gama de tareas, como el aprendizaje por imitación basado en objetivos, la optimización de recompensas y el seguimiento.

Un diagrama que describe el enfoque de preentrenamiento.

El modelo final incluye dos componentes: 1) una red de incrustación que recibe como entrada el estado del agente y devuelve su incrustación; 2) una red de políticas parametrizada con la misma incrustación que recibe como entrada el estado y devuelve la acción a realizar.

Un diagrama que describe lo que el modelo había aprendido.

Inferencia a partir de varios tipos de indicaciones

Nuestro algoritmo aprende una representación que alinea estados, recompensas y políticas en el mismo espacio latente. Luego podemos aprovechar esta representación para realizar inferencias de cero disparos para diferentes tareasSeguimiento de movimientoPose alcanzandoOptimización de recompensas

Mejora del rendimiento durante el pre-entrenamiento

Meta Motivo es un modelo de base conductual entrenado en un humanoide basado en SMPL [4] simulado con el simulador Mujoco [5] utilizando un subconjunto del conjunto de datos de captura de movimiento AMASS [6] y 30 millones de muestras de interacción en línea.

Los videos a continuación ilustran los comportamientos correspondientes a una tarea de seguimiento de movimiento (un movimiento de voltereta), una tarea de alcanzar una pose (una pose de arabesco) y una tarea de optimización de recompensa (correr) en diferentes etapas del proceso de preentrenamiento. A pesar de que el modelo no está entrenado explícitamente para optimizar ninguna de estas tareas, vemos que el rendimiento mejora durante el entrenamiento y surgen comportamientos más parecidos a los humanos.Seguimiento de movimientoPose alcanzandoOptimización de recompensas

Resultados de la evaluación

Para la evaluación, hemos desarrollado un nuevo punto de referencia para los humanos que incluye movimientos para seguir, poses estables para alcanzar y funciones de recompensa para optimizar. Consideramos varias líneas de base diferentes que incluyen 1) métodos que se vuelven a entrenar para cada tarea por separado; 2) modelos de base de comportamiento y algoritmos basados ​​en modelos. Estamos publicando el código con los archivos de especificaciones necesarios para usar el simulador y evaluar el rendimiento del modelo en las tareas que se utilizan en el artículo [7] .

Cuantitativo

Nuestro modelo logra entre el 61% y el 88% del rendimiento de los métodos de primera línea reentrenados para cada tarea, al tiempo que supera a todos los demás algoritmos excepto el seguimiento: en este caso es el segundo mejor detrás de Goal-TD3, que no se puede usar para tareas basadas en recompensas.ResultadosSeguimiento de movimientoPose alcanzandoOptimización de recompensas

Datos cuantitativos

Cualitativo

Para analizar más a fondo la brecha de desempeño en las tareas basadas en recompensas y en objetivos entre Meta Motivo y TD3 de una sola tarea, realizamos una evaluación humana con el objetivo de tener una evaluación cualitativa de los comportamientos aprendidos en términos de semejanza con los humanos. Esta evaluación revela que las políticas puramente optimizadas para el desempeño (TD3) producen comportamientos mucho menos naturales que Meta Motivo, que equilibra mejor el desempeño y los comportamientos cualitativos.ResultadosPose alcanzandoOptimización de recompensas

Datos cualitativos

Comprender el espacio latente del comportamiento

Uno de los aspectos cruciales de nuestro nuevo algoritmo es que utiliza la misma representación para incorporar estados, recompensas y movimientos en el mismo espacio. A continuación, hemos investigado la estructura del espacio latente de comportamiento aprendido.VisualizaciónInterpolación

Espacio latente del comportamiento

En la imagen de arriba, visualizamos la incorporación de movimientos clasificados por su actividad (por ejemplo, saltar, correr, gatear) y tareas basadas en recompensas. La representación no solo captura movimientos semánticamente similares en grupos similares, sino que también crea un espacio latente donde las recompensas y los movimientos están bien alineados.

Limitaciones

Meta Motivo es nuestro primer intento de entrenar modelos de base conductual con capacidades de cero disparos en varios tipos de indicaciones diferentes. Si bien el modelo logró sólidos resultados cuantitativos y cualitativos, aún adolece de varias limitaciones.Seguimiento de movimientoPose alcanzandoOptimización de recompensas

Los movimientos rápidos y los movimientos en el suelo no se siguen correctamente. El modelo también muestra vibraciones poco naturales.

Pruébelo usted mismo

Controla el comportamiento de un agente virtual encarnado mediante diversas indicaciones, incluida la creación de las tuyas propias. Observa cómo el agente se adapta a los cambios en la física y las condiciones ambientales, como la gravedad y el viento.

Pruebe la demostración

Referencias

  1. Ahmed Touati, Yann Ollivier, Aprender una representación para optimizar todas las recompensas , NeurIPS 2021
  2. Ahmed Touati, Jérémy Rapin, Yann Ollivier, ¿Existe el aprendizaje por refuerzo de disparo cero? , ICLR 2023
  3. Matteo Pirotta, Andrea Tirinzoni, Ahmed Touati, Alessandro Lazaric, Yann Ollivier, Imitación rápida a través de modelos de Behavior Foundation , ICLR 2024
  4. Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll y Michael J. Black, SMPL: un modelo lineal multipersonal con piel , ACM Transactions on Graphics 2015.
  5. MuJoCo – Simulación física avanzada
  6. Naureen Mahmood, Nima Ghorbani, Nikolaus F. Troje, Gerard Pons-Moll y Michael J. Black. AMASS: archivo de captura de movimiento como formas de superficie , ICCV 2019.
  7. https://github.com/facebookresearch/humenv

Expresiones de gratitud

Autores de la investigación

Andrea Tirinzoni, Ahmed Touati, Jesse Farebrother, Mateusz Guzek, Anssi Kanervisto, Yingchen Xu, Alessandro Lazaric, Matteo Pirotta

Colaboradores del proyecto (en orden alfabético)

Claire Roberts, Dominic Burt, Jiemin Zhang, Leonel Sentana, María Ruiz, Matt Hanson, Morteza Behrooz, Ryan Winstead, Spaso Ilievski, Vincent Moens, Vlad Bodurov, William Ngan

Meta News. Traducido al español

Artículos relacionados

Scroll al inicio