Granite 4.0 al límite: IA en el dispositivo para un rendimiento en el mundo real

Fuente: Qualcomm

A medida que la IA continúa evolucionando, se acelera la transición hacia la inteligencia en el dispositivo . La última versión de IBM, Granite 4.0 , es un ejemplo contundente de cómo se diseñan modelos de código abierto para un rendimiento real , priorizando la velocidad, la flexibilidad y la eficiencia.

Granite 4.0 presenta una arquitectura híbrida ideal para implementaciones en el borde , ya sea que se desarrollen asistentes inteligentes o flujos de trabajo de agentes. Además, con las crecientes capacidades de las plataformas Snapdragon y Qualcomm Dragonwing , los desarrolladores y usuarios finales ahora cuentan con las herramientas para ejecutar estos modelos localmente, sin depender de la infraestructura en la nube.

Granite 4.0: Diseñado para la velocidad, optimizado para la flexibilidad

Granite 4.0 combina componentes Mamba-2 y basados en transformadores, con algunos modelos que incorporan una estrategia de enrutamiento de Mezcla de Expertos (MoE). Esta arquitectura ofrece:

Requisitos de memoria un 70 % menores y velocidades de inferencia dos veces más rápidas con un rendimiento mantenido en comparación con modelos tradicionales de tamaño similar para tareas de lotes grandes y de contexto largo
Longitud de contexto sin restricciones con soporte para tareas de contexto largo (probado hasta 128 K tokens)
Implementación flexible en una amplia gama de dispositivos

Con múltiples tamaños de modelos y arquitecturas, los desarrolladores pueden elegir el modelo adecuado para su hardware y caso de uso:

Granito 4.0 Micro (3B): Transformador denso
Granite 4.0 Micro Hybrid (3B): Mamba-2 densa + Transformador
Granite 4.0 Tiny (7B, 1B activo): MoE Mamba-2 + Transformador
Granite 4.0 Pequeño (32B, 9B activo): MoE Mamba-2 + Transformador

Snapdragon + Granite: una potente combinación de IA de vanguardia

Las plataformas Snapdragon están habilitando una nueva generación de experiencias de IA en dispositivos . Con la computación heterogénea avanzada, los desarrolladores pueden ejecutar modelos como Granite 4.0 directamente en dispositivos con Snapdragon, lo que ofrece:

Capacidad de respuesta en tiempo real para funciones de IA de datos locales y orientadas al usuario
Privacidad y seguridad de datos con procesamiento local
Ahorro de costes al eliminar las tarifas de inferencia en la nube
Fiabilidad incluso en entornos fuera de línea o con limitaciones de ancho de banda

Este enfoque centrado en el borde permite a los desarrolladores crear una IA rápida, privada y escalable .

Nexa AI lleva Granite 4.0 a ejecutarse directamente en la NPU Qualcomm Hexagon para plataformas informáticas y móviles, automóviles e IoT.

Colaboramos estrechamente con Nexa AI para lanzar IBM Granite 4.0 como una solución integrada totalmente optimizada para la NPU Qualcomm® Hexagon™, el núcleo de inferencia de IA dedicado de las plataformas Snapdragon.

NexaML está diseñado específicamente para la inferencia prioritaria de la NPU, ofreciendo un rendimiento excepcional, decodificación estructurada avanzada y un sólido soporte de contexto extendido. Con compatibilidad inmediata desde el día cero con las plataformas Snapdragon X2 Elite y Snapdragon 8 Elite Gen 5, Nexa permite a los desarrolladores implementar Granite 4.0 con una eficiencia inigualable, abriendo la ruta más rápida hacia una IA de borde privada, escalable y de alto rendimiento.

Nexa AI actualmente admite las siguientes versiones del modelo Granite 4.0

Granito-4.0-Micro (3B)
Unidad de procesamiento central Snapdragon X2 Elite
NPU Snapdragon 8 Generación 5
Unidad de procesamiento central Snapdragon X Elite

Los desarrolladores pueden explorar Nexa SDK para PC con Snapdragon PC .

Siga las instrucciones aquí para descargar Nexa SDK y ejecutar Granite 4 en Qualcomm NPU/GPU/CPU en las plataformas Snapdragon con una línea de código.

Obtenga más información sobre Nexa ML, Hyperlink y otras soluciones

Socios de inferencia de CPU y GPU: LM Studio, Ollama y Nexa AI

Qualcomm Technologies e IBM siguen colaborando con socios como Ollama , LM Studio y Nexa AI para que Granite 4.0 sea accesible para los desarrolladores en nuestros otros núcleos de motor de IA, como la GPU y la CPU.

Las plataformas de nuestros socios ofrecen:

Implementación de modelo autohospedado
Ajuste fino y compatibilidad con adaptadores
Integración con flujos de trabajo locales y sistemas empresariales

Juntos, estamos haciendo posible un futuro donde la IA sea omnipresente, personal y esté bajo tu control .

Pruébelo usted mismo

Prueba Granite 4.0 en Ollama

Ejecutar Granite 4.0 en LM Studio

Explora Granite 4.0 en Hugging Face

¿Está interesado en la IA en el dispositivo?

Descubre Qualcomm AI Hub , la plataforma para desarrolladores de Qualcomm Technologies para IA de vanguardia. Tanto si quieres traer tu propio modelo como explorar una colección de modelos preoptimizados para dispositivos con la familia Snapdragon y Dragonwing, Qualcomm AI Hub facilita el desarrollo e implementación de IA localmente.

Qualcomm Blog. N. K. y R. C. N. Do A. Traducido al español

El Portal de las Tecnologías para la Innovación

Granite 4.0 al límite: IA en el dispositivo para un rendimiento en el mundo real

Fuente: Qualcomm

Granite 4.0: Diseñado para la velocidad, optimizado para la flexibilidad

Snapdragon + Granite: una potente combinación de IA de vanguardia

Nexa AI lleva Granite 4.0 a ejecutarse directamente en la NPU Qualcomm Hexagon para plataformas informáticas y móviles, automóviles e IoT.

Socios de inferencia de CPU y GPU: LM Studio, Ollama y Nexa AI

Pruébelo usted mismo

¿Está interesado en la IA en el dispositivo?

Buscá noticias

Seleccioná una categoría

Artículos relacionados

Broadcom lanza la plataforma unificada Wi-Fi 8 para experiencias de IA fluidas en los hogares

Presentamos ChatGPT Salud

Contacto