El Portal de las Tecnologías para la Innovación

Uso de IA generativa para diversificar los campos de entrenamiento virtuales para robots

Fuente:

Una nueva herramienta de MIT CSAIL crea cocinas y salas de estar virtuales realistas donde los robots simulados pueden interactuar con modelos de objetos del mundo real, ampliando los datos de entrenamiento para los modelos básicos de los robots.

Chatbots como ChatGPT y Claude han experimentado un aumento vertiginoso en su uso en los últimos tres años gracias a su capacidad para ayudarte con una amplia gama de tareas. Ya sea que estés escribiendo sonetos de Shakespeare, depurando código o necesites la respuesta a una pregunta trivial, los sistemas de inteligencia artificial parecen tenerlo todo cubierto. ¿El origen de esta versatilidad? Miles de millones, o incluso billones, de datos textuales en internet.

Sin embargo, estos datos no son suficientes para enseñar a un robot a ser un útil asistente doméstico o de fábrica. Para comprender cómo manipular, apilar y colocar diversos conjuntos de objetos en diversos entornos, los robots necesitan demostraciones. Los datos de entrenamiento de robots se pueden considerar como una colección de vídeos instructivos que guían a los sistemas a través de cada movimiento de una tarea. Recopilar estas demostraciones en robots reales requiere mucho tiempo y no es perfectamente repetible, por lo que los ingenieros han creado datos de entrenamiento generando simulaciones con IA (que no suelen reflejar la física del mundo real) o creando manualmente cada entorno digital desde cero.

Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y del Instituto de Investigación Toyota podrían haber encontrado la manera de crear los entornos de entrenamiento diversos y realistas que necesitan los robots. Su enfoque de » generación de escenas controlables » crea escenas digitales de espacios como cocinas, salas de estar y restaurantes que los ingenieros pueden usar para simular numerosas interacciones y escenarios del mundo real. Entrenada en más de 44 millones de salas 3D llenas de modelos de objetos como mesas y platos, la herramienta coloca los recursos existentes en nuevas escenas y luego las perfecciona para crear un entorno físicamente preciso y realista.

La generación de escenas controlables crea estos mundos 3D al dirigir un modelo de difusión (un sistema de IA que genera una imagen a partir de ruido aleatorio) hacia una escena cotidiana. Los investigadores utilizaron este sistema generativo para «pintar» un entorno, rellenando elementos específicos de la escena. Imagine un lienzo en blanco que de repente se transforma en una cocina llena de objetos 3D, que se reorganizan gradualmente para crear una escena que imita la física del mundo real. Por ejemplo, el sistema garantiza que un tenedor no atraviese un tazón sobre una mesa, un fallo común en los gráficos 3D conocido como «recorte», donde los modelos se superponen o se intersecan.

Sin embargo, la forma exacta en que la generación de escenas controlables guía su creación hacia el realismo depende de la estrategia elegida. Su estrategia principal es la «búsqueda de árbol de Montecarlo» (MCTS), donde el modelo crea una serie de escenas alternativas, completándolas de diferentes maneras para alcanzar un objetivo específico (como hacer una escena más realista físicamente o incluir la mayor cantidad posible de elementos comestibles). El programa de IA AlphaGo lo utiliza para vencer a oponentes humanos en Go (un juego similar al ajedrez), ya que el sistema considera posibles secuencias de movimientos antes de elegir la más ventajosa.

«Somos los primeros en aplicar MCTS a la generación de escenas, al enmarcar la tarea de generación de escenas como un proceso secuencial de toma de decisiones», afirma Nicholas Pfaff, estudiante de doctorado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT, investigador de CSAIL y autor principal de un  artículo que presenta el trabajo. «Seguimos construyendo sobre escenas parciales para producir escenas mejores o más deseadas con el tiempo. Como resultado, MCTS crea escenas que son más complejas que las que se entrenaron con el modelo de difusión».

En un experimento particularmente revelador, MCTS añadió la máxima cantidad de objetos a una escena sencilla de restaurante. Presentó hasta 34 artículos en una mesa, incluyendo enormes pilas de dim sum, tras entrenarse con escenas con un promedio de solo 17 objetos.

La generación de escenas controlables también permite generar diversos escenarios de entrenamiento mediante aprendizaje por refuerzo; básicamente, se trata de enseñar a un modelo de difusión a cumplir un objetivo mediante ensayo y error. Tras entrenar con los datos iniciales, el sistema pasa por una segunda etapa de entrenamiento, donde se define una recompensa (básicamente, un resultado deseado con una puntuación que indica la proximidad del usuario a dicho objetivo). El modelo aprende automáticamente a crear escenas con puntuaciones más altas, lo que a menudo produce escenarios muy diferentes a los que se entrenaron.

Los usuarios también pueden indicar al sistema directamente introduciendo descripciones visuales específicas (como «una cocina con cuatro manzanas y un bol sobre la mesa»). De esta forma, la generación de escenas controlables puede dar vida a las solicitudes con precisión. Por ejemplo, la herramienta siguió las indicaciones de los usuarios con una precisión del 98 % al crear escenas de estantes de despensa y del 86 % para mesas de desayuno desordenadas. Ambas marcas suponen una mejora de al menos el 10 % con respecto a métodos comparables como » MiDiffusion » y » DiffuScene «.

El sistema también puede completar escenas específicas mediante indicaciones o instrucciones ligeras (como «inventa una disposición diferente de la escena usando los mismos objetos»). Podrías pedirle que coloque manzanas en varios platos de una mesa de cocina, por ejemplo, o que coloque juegos de mesa y libros en un estante. En esencia, se trata de «rellenar el espacio vacío» colocando objetos en los espacios vacíos, pero conservando el resto de la escena.

Según los investigadores, la fortaleza de su proyecto reside en su capacidad para crear numerosas escenas que los expertos en robótica pueden utilizar. «Una conclusión clave de nuestros hallazgos es que no hay problema en que las escenas con las que preentrenamos no se parezcan exactamente a las que realmente queremos», afirma Pfaff. «Usando nuestros métodos de control, podemos ir más allá de esa amplia distribución y tomar muestras de una ‘mejor’. En otras palabras, generar las escenas diversas, realistas y adaptadas a las tareas en las que realmente queremos entrenar a nuestros robots».

Estas vastas escenas se convirtieron en el campo de pruebas donde se podía grabar a un robot virtual interactuando con diferentes objetos. La máquina colocaba cuidadosamente tenedores y cuchillos en un portacubiertos, por ejemplo, y reorganizaba el pan en los platos en diversas configuraciones 3D. Cada simulación parecía fluida y realista, similar a la de los robots adaptables del mundo real que la generación de escenas controlables podría ayudar a entrenar algún día.

Si bien el sistema podría ser un camino prometedor para generar una gran cantidad de datos de entrenamiento diversos para robots, los investigadores afirman que su trabajo es más bien una prueba de concepto. En el futuro, les gustaría utilizar la IA generativa para crear objetos y escenas completamente nuevos, en lugar de usar una biblioteca fija de recursos. También planean incorporar objetos articulados que el robot pueda abrir o girar (como armarios o frascos llenos de comida) para que las escenas sean aún más interactivas.

Para hacer que sus entornos virtuales sean aún más realistas, Pfaff y sus colegas pueden incorporar objetos del mundo real mediante una biblioteca de objetos y escenas extraídas de imágenes de Internet y utilizando su trabajo anterior en “ Scalable Real2Sim ”. Al expandir cuán diversos y realistas pueden ser los campos de prueba de robots construidos por IA, el equipo espera construir una comunidad de usuarios que creará una gran cantidad de datos, que luego podrían usarse como un conjunto de datos masivo para enseñar diferentes habilidades a robots diestros.

“Hoy en día, crear escenas realistas para simulación puede ser una tarea bastante desafiante; la generación procedimental puede producir fácilmente una gran cantidad de escenas, pero probablemente no serán representativas de los entornos que el robot encontraría en el mundo real. Crear escenas a medida manualmente requiere mucho tiempo y es costoso”, dice Jeremy Binagia, un científico aplicado de Amazon Robotics que no participó en el artículo. La generación de escenas controlables ofrece un enfoque más eficaz: entrenar un modelo generativo con una amplia colección de escenas preexistentes y adaptarlo (mediante una estrategia como el aprendizaje por refuerzo) a aplicaciones posteriores específicas. En comparación con trabajos anteriores que utilizan un modelo de visión-lenguaje estándar o se centran únicamente en la disposición de objetos en una cuadrícula 2D, este enfoque garantiza la viabilidad física y considera la traslación y rotación 3D completas, lo que permite generar escenas mucho más interesantes.

“La generación de escenas controlable con entrenamiento posterior y búsqueda en tiempo de inferencia proporciona un marco novedoso y eficiente para automatizar la generación de escenas a escala”, afirma Rick Cory, SM ’08, PhD ’10, del Instituto de Investigación Toyota, quien tampoco participó en el artículo. “Además, puede generar escenas ‘nunca antes vistas’ que se consideran importantes para tareas posteriores. En el futuro, la combinación de este marco con una gran cantidad de datos de internet podría marcar un hito importante hacia el entrenamiento eficiente de robots para su implementación en el mundo real”.

Pfaff escribió el artículo junto con el autor principal Russ Tedrake, profesor Toyota de Ingeniería Eléctrica y Ciencias de la Computación, Aeronáutica y Astronáutica, e Ingeniería Mecánica en el MIT; vicepresidente sénior de modelos de comportamiento a gran escala en el Instituto de Investigación Toyota; e investigador principal de CSAIL. Otros autores fueron Hongkai Dai SM ’12, PhD ’16, investigador en robótica del Instituto de Investigación Toyota; Sergey Zakharov, líder del equipo e investigador científico sénior; y Shun Iwase, estudiante de doctorado de la Universidad Carnegie Mellon. Su trabajo fue financiado parcialmente por Amazon y el Instituto de Investigación Toyota. Los investigadores presentaron su trabajo en la Conferencia sobre Aprendizaje Robótico (CoRL) en septiembre.

MIT News. A. S. Traducido al español

Artículos relacionados

MIT

El MIT Schwarzman College of Computing y MBZUAI lanzan una colaboración internacional para dar forma al futuro de la IA

El Programa de Investigación Colaborativa MIT–MBZUAI unirá a profesores y estudiantes de ambas instituciones para promover la IA y acelerar su uso en desafíos científicos y sociales urgentes.

El MIT Schwarzman College of Computing y la Universidad de Inteligencia Artificial Mohamed bin Zayed (MBZUAI) celebraron recientemente el lanzamiento del Programa de Investigación Colaborativa MIT-MBZUAI, un nuevo esfuerzo para fortalecer los componentes básicos de la inteligencia artificial y acelerar su uso en desafíos científicos y sociales apremiantes.

Continuar leyendo...
Universidad de Cambridge

Un método alimentado con energía solar ilumina el camino hacia una industria química ‘desfosilizada’

Los investigadores han demostrado una forma nueva y sostenible de fabricar los productos químicos que son la base de miles de productos (desde plásticos hasta cosméticos) que utilizamos todos los días.

La industria química fabrica cientos de miles de sustancias químicas y transforma materias primas, generalmente combustibles fósiles, en productos finales útiles. Debido a su tamaño y al uso de combustibles fósiles como materia prima, la industria química es responsable de aproximadamente el 6 % de las emisiones globales de carbono.

Continuar leyendo...
Scroll al inicio