Un estudio podría conducir a maestrías en derecho que sean mejores en razonamiento complejo

Los investigadores desarrollaron una forma de hacer que los modelos de lenguaje grandes sean más adaptables a tareas desafiantes como la planificación estratégica o la optimización de procesos.

A pesar de todas sus impresionantes capacidades, los modelos de lenguaje grandes (LLM) a menudo resultan insuficientes cuando se les asignan tareas nuevas y desafiantes que requieren habilidades de razonamiento complejas.

Si bien un LLM de una firma de contabilidad puede sobresalir en resumir informes financieros, ese mismo modelo podría fallar inesperadamente si se le asigna la tarea de predecir tendencias del mercado o identificar transacciones fraudulentas.

Para hacer que los LLM sean más adaptables, los investigadores del MIT investigaron cómo se puede implementar estratégicamente una determinada técnica de entrenamiento para mejorar el desempeño de un modelo en problemas desconocidos y difíciles.

Demuestran que el entrenamiento en tiempo de prueba, un método que implica la actualización temporal de algunos de los procesos internos de un modelo durante la implementación, puede resultar en una mejora de seis veces en la precisión. Los investigadores desarrollaron un marco para implementar una estrategia de entrenamiento en tiempo de prueba que utiliza ejemplos de la nueva tarea para maximizar estas mejoras.

Su trabajo podría mejorar la flexibilidad de un modelo, permitiendo que un LLM estándar se adapte a tareas complejas que requieren planificación o abstracción. Esto podría resultar en LLM más precisos en muchas aplicaciones que requieren deducción lógica, desde el diagnóstico médico hasta la gestión de la cadena de suministro.

“El aprendizaje genuino —lo que logramos aquí con el entrenamiento en tiempo de prueba— es algo que estos modelos no pueden lograr por sí solos una vez entregados. No pueden adquirir nuevas habilidades ni mejorar en una tarea. Pero hemos demostrado que si se presiona ligeramente el modelo para que realice un aprendizaje real, se observan enormes mejoras en el rendimiento”, afirma Ekin Akyürek, PhD ’25, autor principal del estudio.

Akyürek colabora en el artículo con los estudiantes de posgrado Mehul Damani, Linlu Qiu, Han Guo y Jyothish Pari; el estudiante de pregrado Adam Zweiger; y los autores principales Yoon Kim, profesor adjunto de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y Jacob Andreas, profesor asociado de EECS y miembro del CSAIL. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.

Abordar dominios difíciles

Los usuarios de LLM suelen intentar mejorar el rendimiento de su modelo en una nueva tarea mediante una técnica llamada aprendizaje en contexto. Proporcionan al modelo algunos ejemplos de la nueva tarea como indicaciones de texto que guían sus resultados.

Pero el aprendizaje en contexto no siempre funciona para problemas que requieren lógica y razonamiento.

Los investigadores del MIT investigaron cómo el entrenamiento en tiempo de prueba puede combinarse con el aprendizaje en contexto para mejorar el rendimiento en estas tareas desafiantes. El entrenamiento en tiempo de prueba implica actualizar algunos parámetros del modelo (las variables internas que utiliza para realizar predicciones) utilizando una pequeña cantidad de datos nuevos específicos de la tarea en cuestión.

Los investigadores exploraron cómo el entrenamiento en tiempo de examen interactúa con el aprendizaje en contexto. Estudiaron opciones de diseño que maximizan las mejoras de rendimiento que se pueden obtener con un LLM de propósito general.

Descubrimos que el entrenamiento en tiempo de prueba es una forma de aprendizaje mucho más eficaz. Si bien el simple hecho de proporcionar ejemplos puede mejorar ligeramente la precisión, actualizar el modelo con esos ejemplos puede generar un rendimiento significativamente mejor, especialmente en dominios desafiantes, afirma Damani.

El aprendizaje en contexto requiere un pequeño conjunto de ejemplos de tareas, incluyendo problemas y sus soluciones. Los investigadores utilizan estos ejemplos para crear un conjunto de datos específico para cada tarea, necesario para el entrenamiento en el momento del examen.

Para ampliar el tamaño de este conjunto de datos, crean nuevas entradas modificando ligeramente los problemas y las soluciones de los ejemplos, por ejemplo, invirtiendo horizontalmente algunos datos de entrada. Observan que entrenar el modelo con las salidas de este nuevo conjunto de datos proporciona el mejor rendimiento.

Además, los investigadores solo actualizan una pequeña cantidad de parámetros del modelo utilizando una técnica llamada adaptación de bajo rango, que mejora la eficiencia del proceso de entrenamiento en tiempo de prueba.

Esto es importante porque nuestro método debe ser eficiente para implementarse en el mundo real. Hemos comprobado que se pueden lograr mejoras significativas en la precisión con un entrenamiento mínimo de parámetros, afirma Akyürek.

Desarrollando nuevas habilidades

Optimizar el proceso es fundamental, ya que el entrenamiento en tiempo de prueba se realiza por instancia, lo que significa que el usuario tendría que realizarlo para cada tarea. Las actualizaciones del modelo son solo temporales, y este vuelve a su forma original tras realizar una predicción.

Un modelo que normalmente tarda menos de un minuto en responder una consulta podría tardar cinco o diez minutos en proporcionar una respuesta con un entrenamiento en tiempo de prueba, añade Akyürek.

No querríamos hacer esto para todas las consultas de los usuarios, pero es útil si se trata de una tarea muy difícil que se desea que el modelo resuelva correctamente. También podría haber tareas que sean demasiado complejas para que un LLM las resuelva sin este método, afirma.

Los investigadores probaron su enfoque en dos conjuntos de datos de referencia de problemas extremadamente complejos, como rompecabezas de inteligencia. Esto multiplicó por seis la precisión en comparación con técnicas que solo utilizan aprendizaje en contexto.

Las tareas que involucraban patrones estructurados o aquellas que utilizaban tipos de datos completamente desconocidos mostraron las mayores mejoras en el rendimiento.

Para tareas más sencillas, el aprendizaje en contexto podría ser adecuado. Pero actualizar los parámetros en sí podría desarrollar una nueva habilidad en el modelo, afirma Damani.

En el futuro, los investigadores quieren utilizar estos conocimientos para el desarrollo de modelos que aprendan continuamente.

El objetivo a largo plazo es un LLM que, dada una consulta, pueda determinar automáticamente si necesita utilizar entrenamiento en tiempo de prueba para actualizar los parámetros o si puede resolver la tarea utilizando aprendizaje en contexto y luego implementar la mejor estrategia de entrenamiento en tiempo de prueba sin la necesidad de intervención humana.

Este trabajo cuenta con el apoyo, en parte, del MIT-IBM Watson AI Lab y la National Science Foundation. MIT News. A. Z. Traducido al español

El Portal de las Tecnologías para la Innovación

Un estudio podría conducir a maestrías en derecho que sean mejores en razonamiento complejo

Buscá noticias

Seleccioná una categoría

Artículos relacionados

Huawei presenta su visión de sinergia submarino-terrestre y orquestación óptica-inteligente

¡Despega con Mario en dos aventuras que desafían la gravedad!

Contacto