Una de las técnicas más utilizadas para hacer que los modelos de IA sean más eficientes, la cuantificación, tiene límites, y la industria podría estar acercándose rápidamente a ellos.
En el contexto de la IA, la cuantificación se refiere a la reducción de la cantidad de bits (las unidades más pequeñas que puede procesar un ordenador) necesarios para representar la información. Consideremos esta analogía: cuando alguien pregunta la hora, probablemente diríamos “mediodía”, no “oh, mil doscientos, un segundo y cuatro milisegundos”. Eso es cuantificación; ambas respuestas son correctas, pero una es ligeramente más precisa. La precisión que realmente se necesita depende del contexto.
Los modelos de IA constan de varios componentes que se pueden cuantificar, en particular los parámetros, las variables internas que utilizan los modelos para hacer predicciones o tomar decisiones. Esto es conveniente, considerando que los modelos realizan millones de cálculos cuando se ejecutan. Los modelos cuantificados con menos bits que representan sus parámetros son menos exigentes matemáticamente y, por lo tanto, computacionalmente. (Para ser claros, este es un proceso diferente de la “destilación”, que es una poda más compleja y selectiva de los parámetros).
Pero la cuantificación puede tener más desventajas de las que se suponía anteriormente.
El modelo cada vez más pequeño
Según un estudio realizado por investigadores de Harvard, Stanford, MIT, Databricks y Carnegie Mellon, los modelos cuantizados tienen un peor rendimiento si la versión original no cuantizada del modelo se entrenó durante un largo período con una gran cantidad de datos. En otras palabras, en un momento determinado, puede ser mejor entrenar un modelo más pequeño en lugar de reducir uno grande.
Esto podría significar malas noticias para las empresas de IA que entrenan modelos extremadamente grandes (conocidos por mejorar la calidad de las respuestas) y luego los cuantifican en un esfuerzo por hacer que su servicio sea menos costoso.
Los efectos ya se están manifestando. Hace unos meses, los desarrolladores y académicos informaron que cuantificar el modelo Llama 3 de Meta tendía a ser «más dañino» en comparación con otros modelos, posiblemente debido a la forma en que se entrenó.
“En mi opinión, el costo número uno para todos en IA es y seguirá siendo la inferencia, y nuestro trabajo muestra que una forma importante de reducirla no funcionará para siempre”, dijo a TechCrunch Tanishq Kumar, estudiante de matemáticas de Harvard y primer autor del artículo.
Contrariamente a la creencia popular, la inferencia de modelos de IA (ejecutar un modelo, como cuando ChatGPT responde una pregunta) suele ser más costosa en conjunto que el entrenamiento del modelo. Consideremos, por ejemplo, que Google gastó aproximadamente 191 millones de dólares para entrenar uno de sus modelos insignia Gemini , sin duda una suma enorme. Pero si la empresa utilizara un modelo para generar respuestas de solo 50 palabras a la mitad de todas las consultas de búsqueda de Google, gastaría aproximadamente 6 mil millones de dólares al año.
Los principales laboratorios de IA han adoptado modelos de entrenamiento en conjuntos de datos masivos bajo el supuesto de que “escalar” (incrementar la cantidad de datos y computación utilizados en el entrenamiento) conducirá a una IA cada vez más capaz.
Por ejemplo, Meta entrenó a Llama 3 con un conjunto de 15 billones de tokens. ( Los tokens representan bits de datos sin procesar; 1 millón de tokens equivale a aproximadamente 750.000 palabras). La generación anterior, Llama 2, se entrenó con “solo” 2 billones de tokens.
La evidencia sugiere que la ampliación de escala finalmente produce rendimientos decrecientes; se dice que recientemente Anthropic y Google entrenaron modelos enormes que no alcanzaron las expectativas de referencia internas. Pero hay pocas señales de que la industria esté lista para alejarse significativamente de estos enfoques de ampliación arraigados.
¿Qué tan preciso exactamente?
Entonces, si los laboratorios se muestran reacios a entrenar modelos en conjuntos de datos más pequeños, ¿existe alguna manera de hacer que los modelos sean menos susceptibles a la degradación? Posiblemente. Kumar dice que él y los coautores descubrieron que entrenar modelos en “baja precisión” puede hacerlos más robustos. Tenga paciencia con nosotros por un momento mientras profundizamos un poco.
En este caso, la “precisión” se refiere a la cantidad de dígitos que un tipo de datos numéricos puede representar con precisión. Los tipos de datos son conjuntos de valores de datos, normalmente especificados por un conjunto de valores posibles y operaciones permitidas; el tipo de datos FP8, por ejemplo, utiliza solo 8 bits para representar un número de punto flotante .
La mayoría de los modelos actuales se entrenan con 16 bits o “media precisión” y se “cuantifican después del entrenamiento” con una precisión de 8 bits. Algunos componentes del modelo (por ejemplo, sus parámetros) se convierten a un formato de menor precisión a costa de cierta precisión. Piense en ello como si hiciera los cálculos con unos pocos decimales y luego los redondeara a la décima más cercana, lo que a menudo le ofrece lo mejor de ambos mundos.
Los proveedores de hardware como Nvidia están presionando para lograr una precisión menor en la inferencia de modelos cuantizados. El nuevo chip Blackwell de la compañía admite una precisión de 4 bits, específicamente un tipo de datos llamado FP4; Nvidia ha presentado esto como una bendición para los centros de datos con limitaciones de memoria y energía.
Pero una precisión de cuantificación extremadamente baja puede no ser deseable. Según Kumar, a menos que el modelo original sea increíblemente grande en términos de su cantidad de parámetros, las precisiones inferiores a 7 u 8 bits pueden provocar una reducción notable de la calidad.
Si todo esto parece un poco técnico, no se preocupe: lo es. Pero la conclusión es simplemente que los modelos de IA no se entienden por completo y los atajos conocidos que funcionan en muchos tipos de computación no funcionan aquí. No diría «mediodía» si alguien le preguntara cuándo comenzó una carrera de 100 metros, ¿verdad? No es tan obvio, por supuesto, pero la idea es la misma:
“El punto clave de nuestro trabajo es que existen limitaciones que no se pueden obviar de manera ingenua”, concluyó Kumar. “Esperamos que nuestro trabajo aporte matices al debate que a menudo busca valores predeterminados de precisión cada vez más bajos para el entrenamiento y la inferencia”.
Kumar reconoce que su estudio y el de sus colegas se realizó a una escala relativamente pequeña (piensan probarlo con más modelos en el futuro), pero cree que al menos una idea se mantendrá: no hay nada gratis cuando se trata de reducir los costos de inferencia.
“La precisión de bits es importante y no es gratis”, afirmó. “No se puede reducir para siempre sin que los modelos sufran. Los modelos tienen una capacidad finita, por lo que, en lugar de intentar encajar un cuatrillón de tokens en un modelo pequeño, en mi opinión se pondrá mucho más esfuerzo en la curación y el filtrado meticulosos de los datos, de modo que solo los datos de mayor calidad se coloquen en modelos más pequeños. Soy optimista y creo que las nuevas arquitecturas que apuntan deliberadamente a hacer que el entrenamiento de baja precisión sea estable serán importantes en el futuro”. TechCrunch. K. W. Traducido al español