El Portal de las Tecnologías para la Innovación

Desbloqueando una IA asequible y escalable: perfeccionamiento de los aceleradores de IA

Fuente:


Sumérgete para conocer la primera solución PEFT de ajuste fino y eficiente de parámetros basada en Qualcomm Cloud AI 100 Ultra.


Introducción: Pionera en el ajuste fino eficiente de parámetros (PEFT) con aceleradores de IA en la nube de Qualcomm

La inteligencia artificial (IA) evoluciona rápidamente, y con ella, la necesidad de soluciones adaptables, eficientes y rentables es mayor que nunca.

Nos complace presentar la primera solución de ajuste fino basada en la nube que aprovecha la  NPU (Unidad de Procesamiento Neuronal) Qualcomm Hexagon  en la  tarjeta de inferencia Qualcomm Cloud AI 100 Ultra . Este avance supone un hito importante: los desarrolladores de IA y las empresas ahora pueden acceder a capacidades de ajuste fino de alta escalabilidad y bajo consumo, aprovechando la potencia del hardware de Qualcomm Technologies en la nube.

Comprender la PEFT y la necesidad de una personalización rentable

El ajuste fino tradicional de modelos de lenguaje grandes (LLM) y transformadores de visión es computacionalmente intensivo, consume mucha memoria y resulta costoso. Las técnicas de ajuste fino con parámetros eficientes (PEFT), como LoRA (adaptación de bajo rango), ajuste de prefijos y ajuste de adaptadores, permiten a los desarrolladores actualizar solo un pequeño subconjunto de parámetros del modelo.

Esto reduce drásticamente los requisitos computacionales, el consumo de memoria, el tiempo de entrenamiento y el coste, lo que hace que la adaptación del modelo sea viable para casos de uso donde el reentrenamiento completo resulta impráctico.

A medida que se acelera la adopción de la IA, las organizaciones se enfrentan a un cuello de botella: el alto coste y la complejidad de personalizar los modelos para tareas específicas de cada dominio, como imágenes médicas, atención al cliente y automatización industrial.

El ajuste fino como servicio (FTaaS) resuelve este desafío al ofrecer personalización de modelos bajo demanda, sin costes de infraestructura y con un modelo de pago por uso. Gracias a la arquitectura de bajo consumo de Qualcomm Cloud AI 100 Ultra, FTaaS no solo es asequible, sino también sostenible, ideal para startups, empresas y laboratorios de investigación.

PEFT y FTaaS, en conjunto, permiten una adaptación rápida, escalable y rentable de los modelos básicos, reduciendo las barreras para la experimentación y acelerando el tiempo de comercialización de las soluciones de IA.

Técnicas de perfeccionamiento: Métodos modernos para un impacto máximo

Los métodos modernos de ajuste fino, como LoRa, los adaptadores y el ajuste suave, permiten la adaptación eficiente de modelos grandes actualizando solo parámetros seleccionados. Las técnicas aditivas introducen módulos ligeros, mientras que los métodos selectivos se centran en partes específicas del modelo, reduciendo las necesidades de computación y memoria.

Estos enfoques, respaldados por marcos de trabajo como DeepSpeed ​​y Accelerate, permiten una personalización rápida y escalable del modelo.

Ajuste preciso como servicio con Qualcomm AI Inference Suite

La suite de inferencia de IA de Qualcomm proporciona a los desarrolladores un acceso fluido a recursos de ajuste preciso, eliminando la necesidad de hardware local o una gestión de infraestructura compleja.

Con FTaaS, los usuarios pueden cargar sus datos, seleccionar modelos preentrenados e iniciar tareas de ajuste directamente en la nube. La plataforma gestiona la asignación, la optimización y el escalado de recursos, lo que garantiza un uso eficiente de las capacidades de Qualcomm Cloud AI 100 Ultra.

FTaaS se expone a través de nubes para desarrolladores impulsadas por soluciones de IA en la nube de Qualcomm, como Inference Cloud de Cirrascale .

Con Qualcomm AI Inference Suite, los desarrolladores e ingenieros de aprendizaje automático pueden ajustar los modelos sin necesidad de instalar un entorno de desarrollo de Python, dominar los parámetros de ajuste ni utilizar utilidades de línea de comandos.

La plataforma ofrece una experiencia intuitiva y guiada con valores predeterminados sensatos, lo que permite obtener resultados de alta calidad con un mínimo esfuerzo y sin necesidad de conocimientos técnicos profundos.

Diagrama que muestra el flujo de trabajo para generar un modelo de IA optimizado, incluyendo los pasos para preparar y cargar un conjunto de datos, crear un trabajo de optimización y desplegar el modelo completo a través de BYOM (Bring Your Own Model).

El modo Eager de PyTorch: Impulsando el ajuste fino de próxima generación

Nuestra pila PyTorch Eager Mode ofrece compatibilidad nativa con PyTorch en Qualcomm Cloud AI 100 Ultra, lo que permite a los desarrolladores usar flujos de trabajo y bibliotecas familiares. Esta integración facilita la rápida adopción de nuevas funciones y parches de PyTorch, agilizando y flexibilizando la optimización. Al conectar el dinámico ecosistema de PyTorch con el hardware de Qualcomm Technologies, los desarrolladores pueden innovar y escalar soluciones de IA de forma eficiente.

Diagrama de flujo que ilustra la integración de PyTorch con los transformadores Hugging Face, DeepSpeed, Accelerate y PEFT, todos ejecutándose en el hardware Qualcomm Cloud AI 100 Ultra.

Ejemplo de ajuste fino

En la imagen inferior, presentamos un caso práctico donde el modelo de lenguaje Llama-3.1-8B-Instruct se ajusta mediante LoRA (Adaptación de Bajo Rango) en Qualcomm Cloud AI 100 Ultra para adaptar su salida al estilo de lenguaje propio de la educación primaria. El proceso incluye el entrenamiento con el conjunto de datos Style Remix, la medición de las mejoras en métricas de legibilidad como Flesch-Kincaid, Linsear Write y el Índice de Niebla de Gunning, y la demostración de una reducción significativa en la puntuación del nivel de grado, de 12.08 a 8.05. El modelo adaptado genera texto simplificado adecuado para estudiantes de primaria, lo que demuestra la eficacia de PEFT para la adaptación lingüística específica. 

Diagrama de proceso que muestra el ajuste fino del modelo Llama-3.1-8B-Instruct mediante adaptadores LoRa y el conjunto de datos Style Remix, con una comparación de las salidas del modelo antes y después del ajuste fino para una legibilidad de nivel elemental.

Conclusión: Moldeando el futuro del desarrollo de la IA

El lanzamiento del ajuste fino en Qualcomm Cloud AI 100 Ultra permite soluciones de IA innovadoras y escalables. Gracias a la compatibilidad con diversos tipos de modelos y técnicas PEFT avanzadas, las organizaciones pueden adaptar eficientemente los modelos de IA a sus necesidades.

Esta plataforma simplifica la escalabilidad, la experimentación y la implementación, impulsando una mayor accesibilidad e innovación en el desarrollo de IA para el futuro.

Conéctate con otros desarrolladores, entérate de las últimas noticias y recibe asistencia técnica inmediata uniéndote a nuestro  servidor de Discord para desarrolladores.

Qualcomm Blog. J. P. Traducido al español

Artículos relacionados

OpenAI

Presentamos ChatGPT Salud

ChatGPT Salud, una experiencia diseñada para integrar de manera segura tu información médica con la inteligencia de ChatGPT, para que dispongas de más información, confianza y preparación a la hora de cuidar tu salud.

Continuar leyendo...
Scroll al inicio