A medida que la IA continúa evolucionando, se acelera la transición hacia la inteligencia en el dispositivo . La última versión de IBM, Granite 4.0 , es un ejemplo contundente de cómo se diseñan modelos de código abierto para un rendimiento real , priorizando la velocidad, la flexibilidad y la eficiencia.
Granite 4.0 presenta una arquitectura híbrida ideal para implementaciones en el borde , ya sea que se desarrollen asistentes inteligentes o flujos de trabajo de agentes. Además, con las crecientes capacidades de las plataformas Snapdragon y Qualcomm Dragonwing , los desarrolladores y usuarios finales ahora cuentan con las herramientas para ejecutar estos modelos localmente, sin depender de la infraestructura en la nube.
Granite 4.0: Diseñado para la velocidad, optimizado para la flexibilidad
Granite 4.0 combina componentes Mamba-2 y basados en transformadores, con algunos modelos que incorporan una estrategia de enrutamiento de Mezcla de Expertos (MoE). Esta arquitectura ofrece:
- Requisitos de memoria un 70 % menores y velocidades de inferencia dos veces más rápidas con un rendimiento mantenido en comparación con modelos tradicionales de tamaño similar para tareas de lotes grandes y de contexto largo
- Longitud de contexto sin restricciones con soporte para tareas de contexto largo (probado hasta 128 K tokens)
- Implementación flexible en una amplia gama de dispositivos
Con múltiples tamaños de modelos y arquitecturas, los desarrolladores pueden elegir el modelo adecuado para su hardware y caso de uso:
- Granito 4.0 Micro (3B): Transformador denso
- Granite 4.0 Micro Hybrid (3B): Mamba-2 densa + Transformador
- Granite 4.0 Tiny (7B, 1B activo): MoE Mamba-2 + Transformador
- Granite 4.0 Pequeño (32B, 9B activo): MoE Mamba-2 + Transformador
Snapdragon + Granite: una potente combinación de IA de vanguardia
Las plataformas Snapdragon están habilitando una nueva generación de experiencias de IA en dispositivos . Con la computación heterogénea avanzada, los desarrolladores pueden ejecutar modelos como Granite 4.0 directamente en dispositivos con Snapdragon, lo que ofrece:
- Capacidad de respuesta en tiempo real para funciones de IA de datos locales y orientadas al usuario
- Privacidad y seguridad de datos con procesamiento local
- Ahorro de costes al eliminar las tarifas de inferencia en la nube
- Fiabilidad incluso en entornos fuera de línea o con limitaciones de ancho de banda
Este enfoque centrado en el borde permite a los desarrolladores crear una IA rápida, privada y escalable .
Nexa AI lleva Granite 4.0 a ejecutarse directamente en la NPU Qualcomm Hexagon para plataformas informáticas y móviles, automóviles e IoT.
Colaboramos estrechamente con Nexa AI para lanzar IBM Granite 4.0 como una solución integrada totalmente optimizada para la NPU Qualcomm® Hexagon™, el núcleo de inferencia de IA dedicado de las plataformas Snapdragon.
NexaML está diseñado específicamente para la inferencia prioritaria de la NPU, ofreciendo un rendimiento excepcional, decodificación estructurada avanzada y un sólido soporte de contexto extendido. Con compatibilidad inmediata desde el día cero con las plataformas Snapdragon X2 Elite y Snapdragon 8 Elite Gen 5, Nexa permite a los desarrolladores implementar Granite 4.0 con una eficiencia inigualable, abriendo la ruta más rápida hacia una IA de borde privada, escalable y de alto rendimiento.
Nexa AI actualmente admite las siguientes versiones del modelo Granite 4.0
- Granito-4.0-Micro (3B)
- Unidad de procesamiento central Snapdragon X2 Elite
- NPU Snapdragon 8 Generación 5
- Unidad de procesamiento central Snapdragon X Elite
Los desarrolladores pueden explorar Nexa SDK para PC con Snapdragon PC .
Siga las instrucciones aquí para descargar Nexa SDK y ejecutar Granite 4 en Qualcomm NPU/GPU/CPU en las plataformas Snapdragon con una línea de código.
Obtenga más información sobre Nexa ML, Hyperlink y otras soluciones
Socios de inferencia de CPU y GPU: LM Studio, Ollama y Nexa AI
Qualcomm Technologies e IBM siguen colaborando con socios como Ollama , LM Studio y Nexa AI para que Granite 4.0 sea accesible para los desarrolladores en nuestros otros núcleos de motor de IA, como la GPU y la CPU.
Las plataformas de nuestros socios ofrecen:
- Implementación de modelo autohospedado
- Ajuste fino y compatibilidad con adaptadores
- Integración con flujos de trabajo locales y sistemas empresariales
Juntos, estamos haciendo posible un futuro donde la IA sea omnipresente, personal y esté bajo tu control .
Pruébelo usted mismo
Ejecutar Granite 4.0 en LM Studio
Explora Granite 4.0 en Hugging Face
¿Está interesado en la IA en el dispositivo?
Descubre Qualcomm AI Hub , la plataforma para desarrolladores de Qualcomm Technologies para IA de vanguardia. Tanto si quieres traer tu propio modelo como explorar una colección de modelos preoptimizados para dispositivos con la familia Snapdragon y Dragonwing, Qualcomm AI Hub facilita el desarrollo e implementación de IA localmente.
Qualcomm Blog. N. K. y R. C. N. Do A. Traducido al español