Los investigadores del Laboratorio de IA Watson del MIT-IBM han desarrollado una guía universal para estimar el rendimiento de los modelos de lenguaje grandes basándose en modelos más pequeños de la misma familia.
Cuando los investigadores construyen modelos de lenguaje grandes (LLM), buscan maximizar el rendimiento con un presupuesto computacional y financiero específico. Dado que el entrenamiento de un modelo puede costar millones de dólares, los desarrolladores deben ser prudentes al tomar decisiones que impactan el costo, por ejemplo, en la arquitectura del modelo, los optimizadores y los conjuntos de datos de entrenamiento, antes de comprometerse con un modelo. Para anticipar la calidad y precisión de las predicciones de un modelo grande, los profesionales suelen recurrir a leyes de escala: utilizan modelos más pequeños y económicos para intentar aproximarse al rendimiento de un modelo objetivo mucho más grande. Sin embargo, el desafío radica en que existen miles de maneras de crear una ley de escala.
Un nuevo trabajo de investigadores del MIT y del MIT-IBM Watson AI Lab aborda este problema recopilando y publicando una colección de cientos de modelos y métricas sobre entrenamiento y rendimiento para aproximar más de mil leyes de escalamiento. A partir de esto, el equipo desarrolló un metaanálisis y una guía sobre cómo seleccionar modelos pequeños y estimar leyes de escalamiento para diferentes familias de modelos LLM, de modo que el presupuesto se aplique de forma óptima a la generación de predicciones de rendimiento fiables.
“La idea de que se podría querer intentar construir modelos matemáticos del proceso de entrenamiento tiene un par de años, pero creo que lo novedoso aquí es que la mayor parte del trabajo que se había estado haciendo antes se planteaba: ‘¿Podemos decir algo a posteriori sobre lo que sucedió cuando entrenamos todos estos modelos, de modo que, cuando intentemos averiguar cómo entrenar un nuevo modelo a gran escala, podamos tomar las mejores decisiones sobre cómo usar nuestro presupuesto computacional?’”, afirma Jacob Andreas, profesor asociado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación e investigador principal del Laboratorio de IA Watson del MIT-IBM.
La investigación fue presentada recientemente en la Conferencia Internacional sobre Aprendizaje Automático por Andreas, junto con los investigadores del MIT-IBM Watson AI Lab Leshem Choshen y Yang Zhang de IBM Research.
Extrapolando el rendimiento
Independientemente de cómo se mire, desarrollar LLM es una tarea costosa: desde la toma de decisiones sobre la cantidad de parámetros y tokens, la selección y el tamaño de los datos, y las técnicas de entrenamiento, hasta la determinación de la precisión de los resultados y su ajuste a las aplicaciones y tareas objetivo. Las leyes de escalamiento ofrecen una forma de pronosticar el comportamiento del modelo al relacionar la pérdida de un modelo grande con el rendimiento de modelos más pequeños y menos costosos de la misma familia, evitando así la necesidad de entrenar completamente a cada candidato. Principalmente, las diferencias entre los modelos más pequeños residen en la cantidad de parámetros y el tamaño de entrenamiento de los tokens. Según Choshen, elucidar las leyes de escalamiento no solo permite tomar mejores decisiones previas al entrenamiento, sino que también democratiza el campo al permitir que los investigadores con pocos recursos comprendan y desarrollen leyes de escalamiento efectivas.
La forma funcional de las leyes de escalamiento es relativamente simple e incorpora componentes de los modelos pequeños que capturan el número de parámetros y su efecto de escalamiento, el número de tokens de entrenamiento y su efecto de escalamiento, y el rendimiento de referencia de la familia de modelos de interés. En conjunto, ayudan a los investigadores a estimar la pérdida de rendimiento de un modelo grande objetivo; cuanto menor sea la pérdida, mejores serán los resultados del modelo objetivo.
Estas leyes permiten a los equipos de investigación sopesar las compensaciones de forma eficiente y evaluar la mejor asignación de recursos limitados. Son especialmente útiles para evaluar el escalamiento de una variable específica, como el número de tokens, y para realizar pruebas A/B con diferentes configuraciones de preentrenamiento.
En general, las leyes de escalamiento no son nuevas; sin embargo, en el campo de la IA, surgieron a medida que los modelos crecían y los costos se disparaban. «Es como si las leyes de escalamiento simplemente hubieran aparecido en algún momento en el campo», dice Choshen. «Empezaron a llamar la atención, pero nadie realmente probó su eficacia ni qué se necesita para crear una buena ley de escalamiento». Además, las leyes de escalamiento en sí mismas eran, en cierto sentido, una caja negra. «Siempre que se han creado leyes de escalamiento en el pasado, siempre se ha tratado de un solo modelo, o una familia de modelos, un conjunto de datos y un desarrollador», dice Andreas. «Realmente no se había realizado mucho metaanálisis sistemático, ya que cada uno entrena individualmente sus propias leyes de escalamiento. Entonces, [queríamos saber], ¿existen tendencias de alto nivel que se observen en estos aspectos?»
Construyendo mejor
Para investigar esto, Choshen, Andreas y Zhang crearon un gran conjunto de datos. Recopilaron LLM de 40 familias de modelos, incluidas Pythia, OPT, OLMO, LLaMA, Bloom, T5-Pile, ModuleFormer mezcla de expertos, GPT y otras familias. Estos incluyeron 485 modelos únicos, pre-entrenados, y donde estaban disponibles, datos sobre sus puntos de control de entrenamiento, costo computacional (FLOP), épocas de entrenamiento y la semilla, junto con 1.9 millones de métricas de rendimiento de pérdida y tareas posteriores. Los modelos diferían en sus arquitecturas, pesos, etc. Usando estos modelos, los investigadores ajustaron más de 1,000 leyes de escalamiento y compararon su precisión a través de arquitecturas, tamaños de modelo y regímenes de entrenamiento, así como probaron cómo el número de modelos, la inclusión de puntos de control de entrenamiento intermedios y el entrenamiento parcial impactaron el poder predictivo de las leyes de escalamiento para los modelos objetivo. Usaron mediciones de error relativo absoluto (ARE); Esta es la diferencia entre la predicción de la ley de escalamiento y la pérdida observada en un modelo grande entrenado. Con esto, el equipo comparó las leyes de escalamiento y, tras el análisis, elaboró recomendaciones prácticas para profesionales de IA sobre qué hace que las leyes de escalamiento sean efectivas.
Sus directrices compartidas guían al desarrollador a través de los pasos, las opciones a considerar y las expectativas. En primer lugar, es fundamental decidir sobre un presupuesto de cómputo y la precisión objetivo del modelo. El equipo descubrió que un 4 % de ARE es aproximadamente la mejor precisión alcanzable que se podría esperar debido al ruido aleatorio de la semilla, pero hasta un 20 % de ARE sigue siendo útil para la toma de decisiones. Los investigadores identificaron varios factores que mejoran las predicciones, como la inclusión de puntos de control de entrenamiento intermedios, en lugar de depender únicamente de las pérdidas finales; esto hizo que las leyes de escalado fueran más fiables. Sin embargo, los datos de entrenamiento muy tempranos, antes de los 10 000 millones de tokens, son ruidosos, reducen la precisión y deben descartarse. Recomiendan priorizar el entrenamiento de más modelos en una variedad de tamaños para mejorar la robustez de la predicción de la ley de escalado, no solo modelos más grandes; seleccionar cinco modelos proporciona un punto de partida sólido.
Generalmente, incluir modelos más grandes mejora la predicción, pero se pueden ahorrar costos entrenando parcialmente el modelo objetivo con aproximadamente el 30 por ciento de su conjunto de datos y usándolo para la extrapolación. Si el presupuesto es considerablemente limitado, los desarrolladores deben considerar entrenar un modelo más pequeño dentro de la familia de modelos objetivo y tomar prestados los parámetros de la ley de escalamiento de una familia de modelos con una arquitectura similar; sin embargo, esto puede no funcionar para los modelos de codificador-decodificador. Por último, el grupo de investigación MIT-IBM descubrió que cuando se compararon las leyes de escalamiento entre familias de modelos, hubo una fuerte correlación entre dos conjuntos de hiperparámetros, lo que significa que tres de los cinco hiperparámetros explicaron casi toda la variación y probablemente podrían capturar el comportamiento del modelo. En conjunto, estas pautas proporcionan un enfoque sistemático para hacer que la estimación de la ley de escalamiento sea más eficiente, confiable y accesible para los investigadores de IA que trabajan con restricciones presupuestarias variables.
Durante este trabajo surgieron varias sorpresas: los modelos pequeños, parcialmente entrenados, siguen siendo muy predictivos y, además, las etapas intermedias de entrenamiento de un modelo completamente entrenado pueden utilizarse (como si fueran modelos individuales) para la predicción de otro modelo objetivo. «Básicamente, no se paga nada en el entrenamiento, porque ya se entrenó el modelo completo, por lo que el modelo a medio entrenar, por ejemplo, es solo un subproducto de lo que se hizo», afirma Choshen. Otra característica que Andreas señaló fue que, al agregarse, la variabilidad entre familias de modelos y diferentes experimentos saltó a la vista y resultó ser más ruidosa de lo esperado. Inesperadamente, los investigadores descubrieron que es posible utilizar las leyes de escalado en modelos grandes para predecir el rendimiento de modelos más pequeños. Otras investigaciones en el campo han planteado la hipótesis de que los modelos más pequeños eran una «bestia diferente» en comparación con los grandes; sin embargo, Choshen discrepa. «Si son totalmente diferentes, deberían haber mostrado un comportamiento totalmente distinto, y no lo hacen».
Si bien este trabajo se centró en el tiempo de entrenamiento del modelo, los investigadores planean extender su análisis a la inferencia del modelo. Andreas afirma que no se trata de «cómo mejora mi modelo a medida que añado más datos de entrenamiento o más parámetros, sino de cómo lo dejo pensar durante más tiempo y extraer más muestras. Creo que definitivamente hay lecciones que aprender aquí sobre cómo construir también modelos predictivos de cuánto pensamiento se necesita en tiempo de ejecución». Afirma que la teoría de las leyes de escalamiento del tiempo de inferencia podría volverse aún más crucial porque «no se trata de entrenar un modelo y luego estar listo. [Más bien,] cada vez que un usuario me consulta, tendrá una nueva consulta, y necesito determinar cuánto debe pensar [mi modelo] para obtener la mejor respuesta. Por lo tanto, ser capaz de construir ese tipo de modelos predictivos, como lo estamos haciendo en este artículo, es aún más importante».
Esta investigación fue financiada, en parte, por el MIT-IBM Watson AI Lab y una beca de investigación Sloan.
MIT News. L. H. Traducido al español