La técnica podría hacer que los sistemas de IA sean mejores en tareas complejas que implican variabilidad.
Diversos campos, desde la robótica hasta la medicina y la ciencia política, están intentando entrenar sistemas de IA para que tomen decisiones significativas de todo tipo. Por ejemplo, el uso de un sistema de IA para controlar de forma inteligente el tráfico en una ciudad congestionada podría ayudar a los automovilistas a llegar a sus destinos más rápido, al tiempo que mejora la seguridad o la sostenibilidad.
Desafortunadamente, enseñar a un sistema de IA a tomar buenas decisiones no es una tarea fácil.
Los modelos de aprendizaje por refuerzo, que son la base de estos sistemas de toma de decisiones basados en IA, aún suelen fallar cuando se enfrentan a variaciones incluso pequeñas en las tareas para las que están entrenados. En el caso del tráfico, un modelo podría tener dificultades para controlar un conjunto de intersecciones con diferentes límites de velocidad, cantidad de carriles o patrones de tráfico.
Para aumentar la fiabilidad de los modelos de aprendizaje de refuerzo para tareas complejas con variabilidad, los investigadores del MIT han introducido un algoritmo más eficiente para entrenarlos.
El algoritmo selecciona estratégicamente las mejores tareas para entrenar a un agente de IA, de modo que pueda realizar de manera eficaz todas las tareas de un conjunto de tareas relacionadas. En el caso del control de semáforos, cada tarea podría ser una intersección en un espacio de tareas que incluye todas las intersecciones de la ciudad.
Al centrarse en un número menor de intersecciones que más contribuyen a la eficacia general del algoritmo, este método maximiza el rendimiento y mantiene bajo el costo de entrenamiento.
Los investigadores descubrieron que su técnica era entre cinco y cincuenta veces más eficiente que los métodos estándar en una serie de tareas simuladas. Esta mejora en la eficiencia ayuda al algoritmo a aprender una mejor solución de manera más rápida, lo que en última instancia mejora el rendimiento del agente de IA.
“Pudimos ver mejoras increíbles en el rendimiento con un algoritmo muy simple, pensando de manera innovadora. Un algoritmo que no es muy complicado tiene más posibilidades de ser adoptado por la comunidad porque es más fácil de implementar y más fácil de entender para otros”, dice la autora principal Cathy Wu, profesora asociada de Desarrollo Profesional Thomas D. y Virginia W. Cabot en Ingeniería Civil y Ambiental (CEE) y el Instituto de Datos, Sistemas y Sociedad (IDSS), y miembro del Laboratorio de Sistemas de Información y Decisiones (LIDS).
En el artículo colaboran con ella el autor principal Jung-Hoon Cho, estudiante de posgrado de la CEE; Vindula Jayawardana, estudiante de posgrado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS); y Sirui Li, estudiante de posgrado del IDSS. La investigación se presentará en la Conferencia sobre sistemas de procesamiento de información neuronal.
Encontrar un punto medio
Para entrenar un algoritmo que controle los semáforos en muchas intersecciones de una ciudad, un ingeniero normalmente elegiría entre dos enfoques principales. Puede entrenar un algoritmo para cada intersección de forma independiente, utilizando solo los datos de esa intersección, o entrenar un algoritmo más grande utilizando datos de todas las intersecciones y luego aplicarlo a cada una.
Pero cada enfoque tiene sus desventajas. Entrenar un algoritmo independiente para cada tarea (como una intersección determinada) es un proceso que consume mucho tiempo y requiere una enorme cantidad de datos y cálculos, mientras que entrenar un algoritmo para todas las tareas suele dar como resultado un rendimiento inferior al esperado.
Wu y sus colaboradores buscaron un punto intermedio entre estos dos enfoques.
Para su método, eligen un subconjunto de tareas y entrenan un algoritmo para cada tarea de forma independiente. Es importante destacar que seleccionan estratégicamente las tareas individuales que tienen más probabilidades de mejorar el rendimiento general del algoritmo en todas las tareas.
Aprovechan un truco común en el campo del aprendizaje de refuerzo llamado aprendizaje de transferencia de disparo cero, en el que un modelo ya entrenado se aplica a una nueva tarea sin volver a entrenarlo. Con el aprendizaje de transferencia, el modelo suele tener un rendimiento notablemente bueno en la nueva tarea vecina.
“Sabemos que lo ideal sería entrenar en todas las tareas, pero nos preguntamos si podríamos entrenar en un subconjunto de esas tareas, aplicar el resultado a todas las tareas y aun así ver un aumento en el rendimiento”, dice Wu.
Para identificar qué tareas deberían seleccionar para maximizar el rendimiento esperado, los investigadores desarrollaron un algoritmo llamado Aprendizaje de Transferencia Basado en Modelos (MBTL).
El algoritmo MBTL consta de dos partes. Por un lado, modela el rendimiento de cada algoritmo si se lo entrenara de forma independiente en una tarea. Luego, modela cuánto se degradaría el rendimiento de cada algoritmo si se lo transfiriera a cada una de las otras tareas, un concepto conocido como rendimiento de generalización.
El modelado explícito del rendimiento de generalización permite a MBTL estimar el valor del entrenamiento en una nueva tarea.
MBTL hace esto secuencialmente, eligiendo primero la tarea que genera la mayor ganancia de rendimiento y luego seleccionando tareas adicionales que brindan las mayores mejoras marginales posteriores al rendimiento general.
Dado que MBTL solo se centra en las tareas más prometedoras, puede mejorar drásticamente la eficiencia del proceso de capacitación.
Reducción de costes de formación
Cuando los investigadores probaron esta técnica en tareas simuladas, incluido el control de señales de tráfico, la gestión de avisos de velocidad en tiempo real y la ejecución de varias tareas de control clásicas, resultó entre cinco y cincuenta veces más eficiente que otros métodos.
Esto significa que podrían llegar a la misma solución entrenando con muchos menos datos. Por ejemplo, con un aumento de eficiencia de 50 veces, el algoritmo MBTL podría entrenarse con solo dos tareas y lograr el mismo rendimiento que un método estándar que utiliza datos de 100 tareas.
“Desde la perspectiva de los dos enfoques principales, eso significa que los datos de las otras 98 tareas no fueron necesarios o que el entrenamiento en las 100 tareas es confuso para el algoritmo, por lo que el rendimiento termina siendo peor que el nuestro”, dice Wu.
Con MBTL, agregar incluso una pequeña cantidad de tiempo de entrenamiento adicional podría generar un rendimiento mucho mejor.
En el futuro, los investigadores planean diseñar algoritmos MBTL que puedan extenderse a problemas más complejos, como espacios de tareas de alta dimensión. También están interesados en aplicar su enfoque a problemas del mundo real, especialmente en sistemas de movilidad de próxima generación.
La investigación está financiada, en parte, por un premio CAREER de la National Science Foundation, el Programa de Becas de Doctorado de la Fundación Educativa Kwanjeong y una beca de doctorado de Amazon Robotics. MIT News. A. Z. Traducido al español