El Portal de las Tecnologías para la Innovación

Este «entrenador inteligente» ayuda a los LLM a cambiar entre texto y código

Fuente:

El sistema CodeSteer podría mejorar la precisión de los modelos de lenguaje grandes al resolver problemas complejos, como la programación de envíos en una cadena de suministro.

Los modelos de lenguaje extenso (LLM) destacan por usar el razonamiento textual para comprender el contexto de un documento y proporcionar una respuesta lógica sobre su contenido. Sin embargo, estos mismos LLM a menudo tienen dificultades para resolver correctamente incluso los problemas matemáticos más simples.

El razonamiento textual suele ser una forma poco ideal de analizar tareas computacionales o algorítmicas. Si bien algunos LLM pueden generar código como Python para gestionar consultas simbólicas, los modelos no siempre saben cuándo usar código ni qué tipo de código funcionaría mejor.

Al parecer, los LLM pueden necesitar un entrenador que los guíe hacia la mejor técnica.

Ingrese a CodeSteer , un asistente inteligente desarrollado por investigadores del MIT que guía a un LLM para cambiar entre generación de código y texto hasta que responda correctamente una consulta.

CodeSteer, un LLM más pequeño, genera automáticamente una serie de indicaciones para guiar iterativamente un LLM más grande. Revisa las respuestas actuales y anteriores del modelo después de cada ronda y ofrece orientación para corregir o refinar la solución hasta que considere que la respuesta es correcta.

Los investigadores descubrieron que ampliar un LLM más grande con CodeSteer mejoró su precisión en tareas simbólicas, como multiplicar números, jugar sudoku y apilar bloques, en más de un 30 %. También permitió que los modelos menos sofisticados superaran a los modelos más avanzados con habilidades de razonamiento mejoradas.

Este avance podría mejorar las capacidades de resolución de problemas de los LLM para tareas complejas que son especialmente difíciles de resolver solo con razonamiento textual, como generar rutas para robots en entornos inciertos o programar envíos en una cadena de suministro internacional.

“Existe una competencia por desarrollar modelos cada vez mejores capaces de abarcarlo todo, pero hemos adoptado un enfoque complementario. Los investigadores han dedicado años a desarrollar tecnologías y herramientas eficaces para abordar problemas en diversos ámbitos. Queremos que los estudiantes de maestría en derecho (LLM) puedan seleccionar las herramientas y los métodos adecuados y aprovechar la experiencia de otros para mejorar sus propias capacidades”, afirma Chuchu Fan, profesor asociado de aeronáutica y astronáutica (AeroAstro) e investigador principal del Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT.

Fan, autor principal del estudio, colabora en un artículo sobre el trabajo con Yongchao Chen, estudiante de posgrado de LIDS; Yilun Hao, estudiante de posgrado de AeroAstro; Yueying Liu, estudiante de posgrado de la Universidad de Illinois en Urbana-Champaign; y Yang Zhang, científico investigador del Laboratorio de IA Watson del MIT-IBM. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.

Un “formador” de LLM  

Si se le pregunta a un LLM qué número es mayor, 9,11 o 9,9, a menudo dará una respuesta incorrecta al usar razonamiento textual. Pero si se le pide que use código para responder la misma pregunta, puede generar y ejecutar un script de Python para comparar ambos números, resolviendo el problema fácilmente.

Inicialmente entrenados para comprender y predecir el lenguaje humano, los LLM son más propensos a responder consultas mediante texto, incluso cuando el código sería más efectivo. Y si bien han aprendido a generar código mediante ajustes finos, estos modelos a menudo generan una versión incorrecta o menos eficiente del código.

En lugar de intentar reentrenar un LLM potente como GPT-4 o Claude para mejorar estas capacidades, los investigadores del MIT perfeccionan un LLM más pequeño y ligero para guiar un modelo más grande entre texto y código. Ajustar un modelo más pequeño no modifica el LLM más grande, por lo que no existe el riesgo de que perjudique otras capacidades del modelo más grande.

También nos inspiramos en los humanos. En el deporte, un entrenador puede no ser mejor que el atleta estrella del equipo, pero aun así puede ofrecer sugerencias útiles para guiar al atleta. Este método de orientación también funciona para los LLM (licenciatura en derecho) —dice Chen—.

Este instructor, CodeSteer, trabaja en conjunto con el LLM más amplio. Primero revisa una consulta y determina si el texto o el código son adecuados para este problema, y qué tipo de código sería el más adecuado.

Luego, genera una solicitud para el LLM mayor, indicándole que utilice un método de codificación o razonamiento textual para responder la consulta. El modelo mayor sigue esta solicitud para responder la consulta y envía el resultado a CodeSteer, que lo revisa.

Si la respuesta no es correcta, CodeSteer continuará solicitando al LLM que pruebe diferentes cosas que podrían solucionar el problema, como incorporar un algoritmo de búsqueda o una restricción en su código Python, hasta que la respuesta sea correcta.

Descubrimos que, a menudo, el LLM más grande intenta ser perezoso y utiliza un código más corto y menos eficiente que no realiza el cálculo simbólico correcto. Diseñamos CodeSteer para evitar este fenómeno, afirma Chen.

Un verificador simbólico evalúa la complejidad del código y envía una señal a CodeSteer si es demasiado simple o ineficiente. Los investigadores también incorporan un verificador de respuestas automáticas en CodeSteer, que solicita al LLM que genere código que calcula la respuesta para verificar su corrección.

Abordar tareas complejas

A medida que los investigadores diseñaron CodeSteer, no pudieron encontrar conjuntos de datos simbólicos adecuados para ajustar y probar el modelo, ya que muchos puntos de referencia existentes no indican si una determinada consulta podría resolverse mejor con texto o código.

Así, recopilaron un corpus de 37 tareas simbólicas complejas, que incluían razonamiento espacial, matemáticas, razonamiento ordenado y optimización, y crearon su propio conjunto de datos, llamado SymBench. Implementaron un enfoque de ajuste que aprovecha SymBench para maximizar el rendimiento de CodeSteer.

En sus experimentos, CodeSteer superó a los nueve métodos de referencia evaluados y aumentó la precisión promedio del 53,3 % al 86,4 %. Mantiene un rendimiento similar incluso en tareas no vistas y en diversos LLM.

Además, un modelo de propósito general aumentado con CodeSteer puede lograr una mayor precisión que los modelos de última generación diseñados para centrarse en el razonamiento y la planificación complejos, al tiempo que requiere mucho menos cálculo.

Nuestro método aprovecha las capacidades propias de un LLM. Al complementarlo con la capacidad de usar la codificación de forma inteligente, podemos aprovechar un modelo ya muy sólido y mejorar aún más su rendimiento, afirma Chen.

En el futuro, los investigadores buscan optimizar CodeSteer para acelerar su proceso iterativo de generación de código. Además, están estudiando cómo perfeccionar eficazmente un modelo unificado con la capacidad de alternar entre razonamiento textual y generación de código, en lugar de depender de un asistente independiente.

Los autores presentan una solución elegante al desafío crucial del uso de herramientas en los LLM. Este método, sencillo pero eficaz, permite que los LLM de vanguardia logren mejoras significativas en el rendimiento sin necesidad de ajustes directos, afirma Jinsung Yoon, investigador científico de Google Cloud AI, quien no participó en este trabajo. Esta investigación representa una contribución sustancial que promete mejorar significativamente la aplicación de los LLM a diversas tareas con las que actualmente presentan dificultades.

“Su éxito al entrenar un modelo más pequeño y especializado para guiar estratégicamente modelos más grandes y avanzados es particularmente impactante”, añade Chi Wang, científico sénior de Google DeepMind, quien no participó en este trabajo. “Esta colaboración inteligente entre diversos ‘agentes’ de IA allana el camino para aplicaciones más robustas y versátiles en escenarios complejos del mundo real”.

Esta investigación cuenta con el apoyo, en parte, de la Oficina de Investigación Naval de EE. UU. y del Laboratorio de IA Watson del MIT-IBM.

MIT News. A. Z. Traducido al español

Artículos relacionados

Epic Games Store

Shrine’s Legacy es un título de 16 bits que retoma la clásica fórmula de los RPG de Super Nintendo

Un joven héroe valiente, un mago misterioso, gemas mágicas y un tirano con tanta armadura que parece que no pueda ni moverse. ¿Os suena de algo? Shrine’s Legacy, el título debut de Positive Concept Games, se inspira en conceptos que han definido los juegos de rol durante décadas. Su protagonista, Rio Shrine, se embarca en una aventura para reunir ocho gemas elementales y restaurar la espada de Shrine (Sword of Shrine), la clave para derrotar al malvado Aklor.

Continuar leyendo...
Scroll al inicio