El Portal de las Tecnologías para la Innovación

Un nuevo enfoque de entrenamiento podría ayudar a los agentes de IA a desempeñarse mejor en condiciones inciertas

A veces, puede ser mejor entrenar a un robot en un entorno diferente de aquel en el que será desplegado.

Un robot doméstico entrenado para realizar tareas domésticas en una fábrica puede no ser capaz de fregar eficazmente el fregadero o sacar la basura cuando se lo utiliza en la cocina de un usuario, ya que este nuevo entorno difiere de su espacio de entrenamiento.

Para evitar esto, los ingenieros a menudo intentan hacer coincidir el entorno de entrenamiento simulado lo más fielmente posible con el mundo real donde se implementará el agente.

Sin embargo, investigadores del MIT y de otros lugares han descubierto que, a pesar de esta creencia convencional, a veces el entrenamiento en un entorno completamente diferente produce un agente de inteligencia artificial con mejor rendimiento.

Sus resultados indican que, en algunas situaciones, entrenar a un agente de IA simulado en un mundo con menos incertidumbre o “ruido” le permitió desempeñarse mejor que un agente de IA competidor entrenado en el mismo mundo ruidoso que usaron para probar ambos agentes.

Los investigadores llaman a este fenómeno inesperado “efecto de entrenamiento en interiores”.

“Si aprendemos a jugar al tenis en un ambiente interior donde no hay ruido, podremos dominar con mayor facilidad diferentes golpes. Luego, si nos trasladamos a un entorno más ruidoso, como una cancha de tenis con viento, tendremos más probabilidades de jugar bien al tenis que si comenzamos a aprender en un entorno con viento”, explica Serena Bono, asistente de investigación en el Media Lab del MIT y autora principal de un artículo sobre el efecto del entrenamiento en interiores.

Los investigadores estudiaron este fenómeno entrenando a agentes de IA para que jugaran juegos de Atari, a los que modificaron añadiendo cierta imprevisibilidad. Se sorprendieron al descubrir que el efecto del entrenamiento en interiores se producía de forma constante en todos los juegos de Atari y en todas sus variantes.

Esperan que estos resultados impulsen investigaciones adicionales para desarrollar mejores métodos de entrenamiento para agentes de IA.

“Se trata de un eje totalmente nuevo en el que pensar. En lugar de intentar que los entornos de entrenamiento y prueba coincidan, es posible que podamos construir entornos simulados en los que un agente de IA aprenda aún mejor”, añade el coautor Spandan Madan, estudiante de posgrado de la Universidad de Harvard.

A Bono y Madan se suman en el trabajo Ishaan Grover, estudiante de posgrado del MIT; Mao Yasueda, estudiante de posgrado de la Universidad de Yale; Cynthia Breazeal, profesora de artes y ciencias de los medios y líder del Grupo de Robótica Personal del Media Lab del MIT; Hanspeter Pfister, profesor de Ciencias de la Computación de la cátedra An Wang en Harvard; y Gabriel Kreiman, profesor de la Facultad de Medicina de Harvard. La investigación se presentará en la Conferencia de la Asociación para el Avance de la Inteligencia Artificial.

Problemas de entrenamiento

Los investigadores se propusieron explorar por qué los agentes de aprendizaje de refuerzo tienden a tener un desempeño tan pésimo cuando se los prueba en entornos diferentes de su espacio de entrenamiento.

El aprendizaje de refuerzo es un método de prueba y error en el que el agente explora un espacio de entrenamiento y aprende a realizar acciones que maximizan su recompensa.

El equipo desarrolló una técnica para agregar explícitamente una cierta cantidad de ruido a un elemento del problema de aprendizaje de refuerzo, llamada función de transición. La función de transición define la probabilidad de que un agente pase de un estado a otro, en función de la acción que elija.

Si el agente está jugando a Pac-Man, una función de transición podría definir la probabilidad de que los fantasmas en el tablero de juego se muevan hacia arriba, hacia abajo, hacia la izquierda o hacia la derecha. En el aprendizaje por refuerzo estándar, la IA se entrenaría y se probaría utilizando la misma función de transición.

Los investigadores agregaron ruido a la función de transición con este enfoque convencional y, como se esperaba, afectó el rendimiento del agente en Pac-Man.

Pero cuando los investigadores entrenaron al agente con un juego de Pac-Man sin ruido y luego lo probaron en un entorno donde inyectaron ruido en la función de transición, funcionó mejor que un agente entrenado en el juego ruidoso.

“La regla general es que se debe intentar capturar la función de transición de la condición de despliegue lo mejor posible durante el entrenamiento para obtener el máximo provecho de la inversión. Pusimos a prueba esta idea hasta el cansancio porque ni nosotros mismos podíamos creerla”, afirma Madan.

La inyección de distintas cantidades de ruido en la función de transición permitió a los investigadores probar muchos entornos, pero no crearon juegos realistas. Cuanto más ruido inyectaban en Pac-Man, más probable era que los fantasmas se teletransportaran aleatoriamente a diferentes casillas.

Para ver si el efecto del entrenamiento en interiores se producía en los juegos normales de Pac-Man, ajustaron las probabilidades subyacentes para que los fantasmas se movieran normalmente, pero tuvieran más probabilidades de moverse hacia arriba y hacia abajo, en lugar de hacia la izquierda y la derecha. Los agentes de IA entrenados en entornos sin ruidos se desempeñaron mejor en estos juegos realistas.

“No se debió únicamente a la forma en que añadimos ruido para crear entornos ad hoc. Esto parece ser una propiedad del problema del aprendizaje por refuerzo. Y fue aún más sorprendente verlo”, afirma Bono.

Explicaciones de exploración

Cuando los investigadores profundizaron en la búsqueda de una explicación, vieron algunas correlaciones en cómo los agentes de IA exploran el espacio de entrenamiento.

Cuando ambos agentes de IA exploran básicamente las mismas áreas, el agente entrenado en el entorno sin ruido tiene un mejor desempeño, tal vez porque le resulta más fácil aprender las reglas del juego sin la interferencia del ruido.

Si sus patrones de exploración son diferentes, el agente entrenado en el entorno ruidoso tiende a tener un mejor desempeño. Esto puede ocurrir porque el agente necesita comprender patrones que no puede aprender en el entorno sin ruido.

«Si sólo aprendo a jugar al tenis con mi derecha en un entorno sin ruido, pero luego en un entorno ruidoso tengo que jugar también con mi revés, no jugaré tan bien en ese entorno», explica Bono.

En el futuro, los investigadores esperan explorar cómo podría producirse el efecto del entrenamiento en interiores en entornos de aprendizaje de refuerzo más complejos o con otras técnicas como la visión artificial y el procesamiento del lenguaje natural. También quieren crear entornos de entrenamiento diseñados para aprovechar el efecto del entrenamiento en interiores, lo que podría ayudar a los agentes de IA a desempeñarse mejor en entornos inciertos. MIT News. A. Z. Traducido al español

Artículos relacionados

Scroll al inicio