IBM Research ha modificado el adaptador tradicional de bajo rango, o LoRA, para dar a los LLM capacidades especializadas en el tiempo de inferencia sin demora. Un conjunto de adaptadores específicos de la tarea y amigables con la inferencia ahora están disponibles en Hugging Face.
Los adaptadores de bajo rango, o LoRA, son una forma rápida de brindar a los modelos generalistas de idiomas grandes conocimientos y habilidades específicos para que puedan hacer cosas como resumir manuales de TI o calificar la precisión de sus propias respuestas. Pero llamar a los LLM aumentados con LoRA puede empantanar rápidamente su rendimiento.
Eso es porque cuando cambias de generalista modelo de fundación para uno personalizado usando LoRA, el modelo personalizado debe reprocesar la conversación hasta ese momento, creando costos de computación y memoria que pueden conducir a largos retrasos en el tiempo de ejecución.
IBM Research ha encontrado una manera de reducir la espera. Se llama “actived” LoRA (o “a” LoRA para abreviar), y esencialmente lo permite IA generativa modelos para reciclar el cálculo que ya realizaron y almacenaron en la memoria para que puedan generar respuestas más rápido tiempo de inferencia. La capacidad de pivotar rápidamente de una tarea a otra se está volviendo más importante a medida que los agentes de LLM se vuelven más populares.
IBM aLoRA se puede llamar para tareas especializadas, al igual que liso viejo LoRAs. Pero en el momento de la inferencia, aLoRA puede simplemente centrarse en incrustaciones existentes ya calculadas por el modelo base. Como su nombre lo indica, aLoRAs puede ser “activado” por separado del modelo base en cualquier momento, y sin costos adicionales, ya que pueden reutilizar incrustaciones almacenadas en la memoria caché de valor clave (KV).
“LoRA tiene que correr hasta el comienzo de una larga conversación y recomprarla, mientras que aLoRA no lo hace,” dijo Kristjan Greenewald, el investigador de IBM que lidera el proyecto aLoRA.
Los investigadores de IBM estiman que un LoRA activado puede realizar tareas individuales de 20 a 30 veces más rápido que un LoRA tradicional. Dependiendo de cuántos aLoRA se convocan, un chat de extremo a extremo podría desarrollarse hasta cinco veces más rápido.
“La eficiencia es importante cuando intentas que los modelos hagan las cosas rápidamente,” agregó Greenewald. “Los costos de tiempo de inferencia se suman en dólares y demoras.”
ALORA: Una función AI “” llamada en tiempo de ejecución para agilizar la inferencia
La idea de un LoRA que podría activarse por sí solo, sin el modelo base, surgió del trabajo en curso de IBM para acelerar la inferencia de IA. Los adaptadores LoRA se han convertido en una alternativa popular al ajuste fino convencional porque proporcionan una forma de inyectar quirúrgicamente nuevas capacidades en un [modelo de fundación] sin el alto costo de actualizar cada uno de los pesos de las modelaciones. Con un adaptador, el 99% de los pesos de modelos personalizados permanecen congelados.
Pero si bien los LoRA han reducido drásticamente los costos de personalización, pueden reducir las velocidades de inferencia. Esto se debe a que sus pesos adaptados deben aplicarse tanto a las consultas entrantes del usuario como a las respuestas generadas por modelos, creando una gran cantidad de cálculos adicionales.
Los investigadores de IBM se preguntaron si podrían recortar parte del trabajo aplicando los pesos adaptados solo al paso de generación. En el software tradicional, los programas informáticos vinculados estáticamente pueden ejecutar tareas que no se crearon explícitamente para ejecutar cargando dinámicamente una biblioteca de software externa de código compilado preexistente y llamando a la función relevante.

Sin embargo, para que un adaptador de IA funcione como una función, los investigadores tuvieron que descubrir cómo ejecutarlo sin las incrustaciones conscientes de las tareas que representan la solicitud del usuario. Sin el beneficio de las incrustaciones adaptadas al objetivo de los usuarios, sus primeros prototipos de LoRA activados no lograron igualar la precisión de los LoRA regulares.
Pero finalmente encontraron una manera de compensar — aumentando el rango del adaptador. Con una mayor capacidad de red, el adaptador ahora podría extraer más pistas contextuales de las incrustaciones generales. En una serie de pruebas, los investigadores confirmaron que su “aLoRA” ahora podía funcionar a la par con un LoRA tradicional.
“En una variedad de aplicaciones, vimos que los modelos personalizados aLoRA ahora podían generar texto, así como aquellos personalizados con LoRA estándar,” dijo Greenewald. “Podríamos obtener sus beneficios de tiempo de ejecución sin la pérdida de precisión.»
Una IA “biblioteca” de adaptadores experimentales
IBM Research está lanzando una biblioteca de nuevos adaptadores aLoRA para su Granito 3.2 LLM, destinados a mejorar la precisión y fiabilidad de Aplicaciones RAG. El código experimental para ejecutar los adaptadores también está disponible a medida que los investigadores trabajan para implementarlos en vLLM, la plataforma de código abierto para servir modelos de IA de manera eficiente. IBM está lanzando por separado un conjunto de adaptadores Granite 3.2 estándar para uso inmediato en vLLM. Algunos de los LoRA específicos de la tarea son actualizaciones del que IBM lanzó el año pasado a través de Experimentos de Granito.
Uno de los nuevos aLoRA puede reescribir consultas en una conversación para facilitar la búsqueda y recuperación de pasajes clave. Otro puede determinar si una consulta puede ser respondida en base a los documentos recuperados, reduciendo el riesgo de que el modelo pueda alucinar una respuesta. Un tercero puede estimar qué tan seguro está el modelo en la precisión de su respuesta, señalando a los usuarios cuándo deben verificar sus hechos.
Más allá de RAG, IBM Research está lanzando adaptadores exploratorios que pueden marcar los intentos de jailbreakó omita los controles de seguridad de LLMm, así como verifique si las salidas LLM cumplen con un conjunto de estándares definidos por el usuario.
Escala de tiempo de prueba — para agentes y más allá
Se ha demostrado que el rendimiento de LLM mejora drásticamente si se gasta más cómputo en tiempo de ejecución para evaluar y mejorar las respuestas iniciales de los modelos. IBM Research recientemente mejoró el capacidades de razonamiento de sus modelos Granite 3.2 mediante la introducción de varios métodos para revisar las respuestas candidatas LLM debajo del capó, en tiempo de prueba, y para seleccionar el mejor para la salida.
IBM Research está explorando si aLoRAs puede proporcionar un aumento de rendimiento similar en lo que se ha llamado alternativamente “test-time” o “inference-time” scaling. Se podría diseñar un adaptador, por ejemplo, para generar múltiples respuestas a una consulta, y seleccionar la respuesta que combine una puntuación baja para el riesgo de alucinación con una puntuación de confianza alta para la precisión.
La próxima frontera en IA implica agentesy los investigadores quieren ver si los adaptadores amigables con la inferencia también pueden tener un impacto aquí. Se ha demostrado que los agentes de IA hacen bien en imitar el razonamiento humano cuando una tarea compleja se divide en pasos discretos para que el agente LLM aborde uno por uno.
Cada uno de estos pasos puede requerir modelos especializados, tanto para implementarlos como para evaluarlos, ya sea por el propio modelo u otro. Aquí es donde los aLoRA ligeros realmente podrían brillar, dijo Luis Lastras, director de tecnologías lingüísticas de IBM Research.
“Gracias a su arquitectura única, podríamos ver enormes mejoras en el rendimiento en tiempo de ejecución,”, dijo. IBM Blog. Traducido al español