El Portal de las Tecnologías para la Innovación

Los investigadores enseñan LLM para resolver desafíos complejos de planificación

Este nuevo marco aprovecha las habilidades de razonamiento de un modelo para crear un “smart assistant” que encuentra la solución óptima para problemas de varios pasos.

Imagine una compañía de café tratando de optimizar su cadena de suministro. La compañía obtiene granos de tres proveedores, los tuesta en dos instalaciones en café oscuro o claro y luego envía el café tostado a tres tiendas minoristas. Los proveedores tienen una capacidad fija diferente, y los costos de tostado y los costos de envío varían de un lugar a otro.

La compañía busca minimizar los costos mientras satisface un aumento del 23 por ciento en la demanda.

¿No sería más fácil para la compañía simplemente pedirle a ChatGPT que elabore un plan óptimo? De hecho, a pesar de todas sus increíbles capacidades, los modelos de lenguaje grande (LLM) a menudo funcionan mal cuando se les encarga resolver directamente problemas de planificación tan complicados por su cuenta.

En lugar de tratar de cambiar el modelo para hacer de un LLM un mejor planificador, los investigadores del MIT adoptaron un enfoque diferente. Introdujeron un marco que guía a un LLM para romper el problema como lo haría un ser humano, y luego lo resuelven automáticamente utilizando una poderosa herramienta de software.

Un usuario solo necesita describir el problema en lenguaje natural — no se necesitan ejemplos específicos de tareas para entrenar o solicitar el LLM. El modelo codifica un mensaje de texto del usuario en un formato que puede ser desentrañado por un solucionador de optimización diseñado para resolver de manera eficiente los desafíos de planificación extremadamente difíciles.

Durante el proceso de formulación, el LLM verifica su trabajo en múltiples pasos intermedios para asegurarse de que el plan se describa correctamente al solucionador. Si detecta un error, en lugar de darse por vencido, el LLM intenta arreglar la parte rota de la formulación.

Cuando los investigadores probaron su marco en nueve desafíos complejos, como minimizar la distancia que los robots de almacén deben viajar para completar las tareas, logró una tasa de éxito del 85 por ciento, mientras que la mejor línea de base solo logró una tasa de éxito del 39 por ciento.

El marco versátil podría aplicarse a una variedad de tareas de planificación de varios pasos, como programar tripulaciones de aerolíneas o administrar el tiempo de la máquina en una fábrica.

“Nuestra investigación introduce un marco que esencialmente actúa como un asistente inteligente para los problemas de planificación. Puede averiguar el mejor plan que satisfaga todas las necesidades que tenga, incluso si las reglas son complicadas o inusuales, dice Yilun Hao, un estudiante graduado en el Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT y autor principal de un documento sobre esta investigación.

A ella se unen en el artículo Yang Zhang, un científico investigador en el MIT-IBM Watson AI Lab; y el autor principal Chuchu Fan, profesor asociado de aeronáutica y astronáutica e investigador principal de LIDS. La investigación se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje.

Optimización 101

El grupo Fan desarrolla algoritmos que resuelven automáticamente lo que se conoce como problemas de optimización combinatoria. Estos vastos problemas tienen muchas variables de decisión interrelacionadas, cada una con múltiples opciones que se suman rápidamente a miles de millones de opciones potenciales.

Los humanos resuelven tales problemas reduciéndolos a algunas opciones y luego determinando cuál conduce al mejor plan general. Los solucionadores algorítmicos de Researchers’ aplican los mismos principios a los problemas de optimización que son demasiado complejos para que un ser humano los craquee.

Pero los solucionadores que desarrollan tienden a tener curvas de aprendizaje pronunciadas y generalmente solo son utilizados por expertos.

“Pensamos que los LLM podrían permitir que los no expertos usen estos algoritmos de resolución. En nuestro laboratorio, tomamos un problema de expertos de dominio y lo formalizamos en un problema que nuestro solucionador puede resolver. Podríamos enseñar a un LLM a hacer lo mismo?” Fan dice.

Usando el marco que los investigadores desarrollaron, llamado Programación Formalizada Basada en LLM (LLMFP), una persona proporciona una descripción en lenguaje natural del problema, información de antecedentes sobre la tarea y una consulta que describe su objetivo.

Luego, LLMFP solicita a un LLM que razone sobre el problema y determine las variables de decisión y las restricciones clave que darán forma a la solución óptima.

LLMFP le pide al LLM que detalle los requisitos de cada variable antes de codificar la información en una formulación matemática de un problema de optimización. Escribe un código que codifica el problema y llama al solucionador de optimización adjunto, que llega a una solución ideal.

“Es similar a cómo enseñamos a estudiantes universitarios sobre problemas de optimización en el MIT. No les enseñamos un solo dominio. Les enseñamos la metodología,” Fan agrega.

Mientras las entradas al solucionador sean correctas, dará la respuesta correcta. Cualquier error en la solución proviene de errores en el proceso de formulación.

Para asegurarse de que ha encontrado un plan de trabajo, LLMFP analiza la solución y modifica cualquier paso incorrecto en la formulación del problema. Una vez que el plan pasa esta autoevaluación, la solución se describe al usuario en lenguaje natural.

Perfeccionando el plan

Este módulo de autoevaluación también permite que el LLM agregue restricciones implícitas que perdió la primera vez, dice Hao.

Por ejemplo, si el marco está optimizando una cadena de suministro para minimizar los costos de una cafetería, un humano sabe que la cantera de la cafetería envía una cantidad negativa de frijoles tostados, pero un LLM podría no darse cuenta de eso.

El paso de autoevaluación marcaría ese error y pediría al modelo que lo solucionara.

“Plus, un LLM puede adaptarse a las preferencias del usuario. Si el modelo se da cuenta de que a un usuario en particular no le gusta cambiar el tiempo o el presupuesto de sus planes de viaje, puede sugerir cambiar las cosas que se ajustan a las necesidades de los usuarios, dice Fan.

En una serie de pruebas, su marco logró una tasa de éxito promedio entre 83 y 87 por ciento en nueve diversos problemas de planificación utilizando varios LLM. Mientras que algunos modelos de referencia fueron mejores en ciertos problemas, LLMFP logró una tasa de éxito general aproximadamente el doble que las técnicas de referencia.

A diferencia de estos otros enfoques, LLMFP no requiere ejemplos específicos de dominio para la capacitación. Puede encontrar la solución óptima para un problema de planificación de inmediato.

Además, el usuario puede adaptar LLMFP para diferentes solucionadores de optimización ajustando las indicaciones alimentadas al LLM.

“Con LLMs, tenemos la oportunidad de crear una interfaz que permita a las personas usar herramientas de otros dominios para resolver problemas de maneras en las que podrían no haber estado pensando antes, dice Fan.

En el futuro, los investigadores quieren permitir que LLMFP tome imágenes como entrada para complementar las descripciones de un problema de planificación. Esto ayudaría al marco a resolver tareas que son particularmente difíciles de describir completamente con lenguaje natural.

Este trabajo fue financiado, en parte, por la Oficina de Investigación Naval y el MIT-IBM Watson AI Lab. MIT News. Z. A. Traducido al español

Artículos relacionados

Scroll al inicio