Uno de los grandes retos a la hora de entrenar modelos de IA para controlar robots es reunir suficientes datos realistas. Ahora, investigadores del MIT han demostrado que pueden entrenar a un perro robot utilizando datos 100 % sintéticos.
Tradicionalmente, los robots se han codificado manualmente para realizar tareas específicas, pero este enfoque da como resultado sistemas frágiles que tienen dificultades para hacer frente a la incertidumbre del mundo real. Los enfoques de aprendizaje automático que entrenan a los robots con ejemplos del mundo real prometen crear máquinas más flexibles, pero recopilar suficientes datos de entrenamiento es un desafío importante.
Una posible solución alternativa es entrenar a los robots mediante simulaciones informáticas del mundo real, lo que hace que sea mucho más sencillo crearles nuevas tareas o entornos. Pero este enfoque se ve afectado por la “brecha entre la simulación y la realidad”: estos entornos virtuales siguen siendo malas réplicas del mundo real y las habilidades que se aprenden en ellos a menudo no se trasladan.
Ahora, los investigadores del MIT CSAIL han encontrado una forma de combinar simulaciones e IA generativa para permitir que un robot, entrenado sin datos del mundo real, aborde una serie de desafiantes tareas de locomoción en el mundo físico.
“Uno de los principales desafíos en la transferencia de simulación a realidad para la robótica es lograr realismo visual en entornos simulados”, dijo Shuran Song de la Universidad de Stanford, quien no participó en la investigación, en un comunicado de prensa del MIT .
“El marco LucidSim ofrece una solución elegante que utiliza modelos generativos para crear datos visuales diversos y sumamente realistas para cualquier simulación. Este trabajo podría acelerar significativamente la implementación de robots entrenados en entornos virtuales para tareas del mundo real”.
Los simuladores más utilizados para entrenar robots en la actualidad pueden reproducir de forma realista el tipo de física que probablemente enfrentarán los robots, pero no son tan buenos para recrear los diversos entornos, texturas y condiciones de iluminación que se encuentran en el mundo real. Esto significa que los robots que dependen de la percepción visual a menudo tienen dificultades en entornos menos controlados.
Para solucionar este problema, los investigadores del MIT utilizaron generadores de texto a imagen para crear escenas realistas y las combinaron con un simulador popular llamado MuJoCo para mapear datos geométricos y físicos en las imágenes. Para aumentar la diversidad de imágenes, el equipo también utilizó ChatGPT para crear miles de indicaciones para el generador de imágenes que abarcan una amplia gama de entornos.
Después de generar estas imágenes realistas del entorno, los investigadores las convirtieron en vídeos cortos desde la perspectiva de un robot utilizando otro sistema que desarrollaron, llamado Dreams in Motion, que calcula cómo se desplazaría cada píxel de la imagen a medida que el robot se desplaza por un entorno, creando múltiples fotogramas a partir de una única imagen.
Los investigadores denominaron a este proceso de generación de datos LucidSim y lo utilizaron para entrenar a un modelo de IA para que controlara un robot cuadrúpedo utilizando solo información visual. El robot aprendió una serie de tareas de locomoción, como subir y bajar escaleras, trepar cajas y perseguir una pelota de fútbol.
El proceso de entrenamiento se dividió en partes. En primer lugar, el equipo entrenó su modelo con datos generados por un sistema de IA experto con acceso a información detallada del terreno mientras intentaba realizar las mismas tareas. Esto le dio al modelo suficiente conocimiento de las tareas para intentarlas en una simulación basada en los datos de LucidSim, que generó más datos. Luego, volvieron a entrenar el modelo con los datos combinados para crear la política de control robótico final.
El método igualó o superó al sistema de inteligencia artificial experto en cuatro de las cinco tareas en pruebas del mundo real, a pesar de depender únicamente de información visual. Y en todas las tareas, superó significativamente a un modelo entrenado utilizando “aleatorización de dominio”, un método de simulación líder que aumenta la diversidad de datos al aplicar colores y patrones aleatorios a los objetos del entorno.
Los investigadores dijeron a MIT Technology Review que su próximo objetivo es entrenar a un robot humanoide con datos puramente sintéticos generados por LucidSim. También esperan utilizar el método para mejorar el entrenamiento de brazos robóticos en tareas que requieran destreza.
Dado el apetito insaciable de datos de entrenamiento de robots, es probable que métodos como este, que pueden proporcionar alternativas sintéticas de alta calidad, se vuelvan cada vez más importantes en los próximos años. singularityhub. E. C. Traducido al español