Una nueva técnica guía automáticamente un LLM hacia salidas que se adhieren a las reglas de cualquier lenguaje de programación u otro formato que se esté utilizando.
Los programadores ahora pueden usar modelos de lenguaje grande (LLM) para generar código de computadora más rápidamente. Sin embargo, esto solo hace que programmers’ sea más fácil si ese código sigue las reglas del lenguaje de programación y no hace que una computadora se bloquee.
Existen algunos métodos para garantizar que los LLM se ajusten a las reglas de cualquier idioma en el que generen texto, pero muchos de estos métodos distorsionan el significado previsto de los modelos o requieren demasiado tiempo para ser factibles para tareas complejas.
Un nuevo enfoque desarrollado por investigadores del MIT y en otros lugares guía automáticamente un LLM para generar texto que se adhiere a las reglas del lenguaje relevante, como un lenguaje de programación en particular, y también está libre de errores. Su método permite que un LLM asigne esfuerzos hacia salidas que tienen más probabilidades de ser válidas y precisas, al tiempo que descarta salidas poco prometedoras al principio del proceso. Este enfoque probabilístico aumenta la eficiencia computacional.
Debido a estas ganancias de eficiencia, la arquitectura de researchers’ permitió a los LLM pequeños superar a modelos mucho más grandes en la generación de salidas precisas y adecuadamente estructuradas para varios casos de uso en el mundo real, incluida la biología molecular y la robótica.
A la larga, esta nueva arquitectura podría ayudar a los no expertos a controlar el contenido generado por IA. Por ejemplo, podría permitir a los empresarios escribir consultas complejas en SQL, un lenguaje para la manipulación de bases de datos, utilizando solo indicaciones de lenguaje natural.
“Este trabajo tiene implicaciones más allá de la investigación. Podría mejorar los asistentes de programación, el análisis de datos impulsado por IA y las herramientas de descubrimiento científico al garantizar que los resultados generados por IA sigan siendo útiles y correctos, dice João Loula, estudiante graduado del MIT y coautor principal de un artículo sobre este marco.
A Loula se unen en el artículo los autores co-líderes Benjamin LeBrun, asistente de investigación en el Instituto de Inteligencia Artificial Mila-Quebec, y Li Du, un estudiante graduado en la Universidad John Hopkins; los autores co-senior Vikash Mansinghka ’05, MEng ’09, PhD ’09, un científico investigador principal y líder del Proyecto de Computación Probabilística en el Departamento de Ciencias Cerebrales y Cognitivas del MIT; Alexander K. Lew SM ’20, profesor asistente en la Universidad de Yale; Tim Vieira, postdoctorado en ETH Zurich; y Timothy J. OayDonnell, profesor asociado de la Universidad McGill y Presidente de IA CIFAR de Canadá en Mila, quien dirigió el equipo internacional; así como varios otros. La investigación se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje.
Hacer cumplir la estructura y el significado
Un enfoque común para controlar el texto estructurado generado por los LLM implica verificar una salida completa, como un bloque de código de computadora, para asegurarse de que sea válido y se ejecute sin errores. Si no, el usuario debe comenzar de nuevo, acumulando recursos computacionales.
Por otro lado, un programador podría detenerse para verificar la salida en el camino. Si bien esto puede garantizar que el código se adhiera al lenguaje de programación y sea estructuralmente válido, la corrección incremental del código puede hacer que se desvíe del significado que el usuario pretendía, perjudicando su precisión a largo plazo.
“Es mucho más fácil hacer cumplir la estructura que el significado. Podemos verificar rápidamente si algo está en el lenguaje de programación correcto, pero para verificar su significado, debe ejecutar el código. Nuestro trabajo también se trata de tratar con estos diferentes tipos de información, dice” Loula.
El enfoque de researchers’ implica conocimiento de ingeniería en el LLM para dirigirlo hacia los resultados más prometedores. Es más probable que estas salidas sigan las restricciones estructurales definidas por un usuario y tengan el significado que el usuario pretende.
“No estamos tratando de entrenar a un LLM para hacer esto. En cambio, estamos diseñando algunos conocimientos que tendría un experto y combinándolos con el conocimiento de LLMms, que ofrece un enfoque muy diferente para escalar de lo que se ve en el aprendizaje profundo, agrega ” Mansinghka.
Lo logran utilizando una técnica llamada Monte Carlo secuencial, que permite la generación paralela a partir de un LLM para competir entre sí. El modelo asigna recursos dinámicamente a diferentes hilos de cálculo paralelo en función de cuán prometedora sea su salida.
Cada salida tiene un peso que representa la probabilidad de que sea estructuralmente válida y semánticamente precisa. En cada paso del cálculo, el modelo se centra en aquellos con pesos más altos y arroja el resto.
En cierto sentido, es como si el LLM tuviera un experto que mira por encima del hombro para asegurarse de que toma las decisiones correctas en cada paso, mientras lo mantiene enfocado en el objetivo general. El usuario especifica su estructura y significado deseados, así como cómo verificar la salida, luego la arquitectura de researchers’ guía al LLM para hacer el resto.
“Weimve trabajó en las matemáticas difíciles para que, para cualquier tipo de restricciones que le guste incorporar, obtenga los pesos adecuados. Al final, obtienes la respuesta correcta,” Loula dice.
Impulsar modelos pequeños
Para probar su enfoque, aplicaron el marco a los LLM encargados de generar cuatro tipos de salidas: Código Python, consultas de bases de datos SQL, estructuras moleculares y planes para que un robot los siga.
En comparación con los enfoques existentes, el método researchers’ se realizó con mayor precisión y requirió menos cálculo.
En la generación de código Python, por ejemplo, la arquitectura de investigadoras’ permitió que un modelo pequeño de código abierto superara a un modelo especializado de código cerrado comercial que tiene más del doble de su tamaño.
“Estamos muy emocionados de poder permitir que estos pequeños modelos superen su peso,”, dice Loula.
En el futuro, los investigadores quieren usar su técnica para controlar trozos más grandes de texto generado, en lugar de trabajar una pequeña pieza a la vez. También quieren combinar su método con el aprendizaje, de modo que a medida que controlan las salidas que genera un modelo, aprenda a ser más preciso.
A largo plazo, este proyecto podría tener aplicaciones más amplias para usuarios no técnicos. Por ejemplo, podría combinarse con sistemas para modelado automatizado de datos, y consulta de modelos generativos de bases de datos.
El enfoque también podría permitir sistemas de análisis de datos asistidos por máquina, donde el usuario puede conversar con un software que modele con precisión el significado de los datos y las preguntas formuladas por el usuario, agrega Mansinghka.
“Una de las preguntas fundamentales de la lingüística es cómo el significado de las palabras, frases y oraciones puede basarse en modelos del mundo, teniendo en cuenta la incertidumbre y la vaguedad en el significado y la referencia. Los LLM, que predicen secuencias simbólicas probables, no abordan este problema. Nuestro documento muestra que, en dominios simbólicos estrechos, es técnicamente posible mapear de palabras a distribuciones en significados fundamentados. Es un pequeño paso hacia preguntas más profundas en la ciencia cognitiva, la lingüística y la inteligencia artificial necesarias para comprender cómo las máquinas pueden comunicarse sobre el mundo como nosotros, dice OaDonnell.
Esta investigación es financiada y apoyada, en parte, por el Programa de Cátedras de IA CIFAR de Canadá, el MIT Quest for Intelligence y Convergent Research. MIT News. Z. A. Traducido al español