La explosión de aplicaciones impulsadas por IA ha impuesto exigencias sin precedentes tanto a los desarrolladores, que deben equilibrar la entrega de un rendimiento de vanguardia con la gestión de la complejidad y los costos operativos, como a la infraestructura de IA
NVIDIA está capacitando a los desarrolladores con innovaciones integrales (que abarcan chips, sistemas y software) que redefinen lo que es posible en la inferencia de IA , haciéndola más rápida, más eficiente y más escalable que nunca.
Implemente fácilmente inferencia de alto rendimiento y baja latencia
Hace seis años, NVIDIA se propuso crear un servidor de inferencia de IA diseñado específicamente para desarrolladores que crean aplicaciones de producción de alto rendimiento y con latencia crítica. En ese momento, muchos desarrolladores se enfrentaban a servidores personalizados y específicos de cada marco que aumentaban la complejidad, elevaban los costos operativos y tenían dificultades para cumplir con los estrictos acuerdos de nivel de servicio en cuanto a latencia y rendimiento.
Para abordar este problema, NVIDIA desarrolló NVIDIA Triton Inference Server , una plataforma de código abierto capaz de ofrecer modelos de cualquier marco de IA. Al consolidar servidores de inferencia específicos del marco, Triton optimizó la implementación de inferencia de IA y aumentó la capacidad de predicción de IA. Este enfoque ha convertido a Triton en uno de los proyectos de código abierto de NVIDIA más adoptados , que ahora utilizan cientos de organizaciones líderes para implementar modelos de IA de producción de manera eficiente.
Además de Triton, NVIDIA ofrece un amplio ecosistema de soluciones de inferencia de IA. Para los desarrolladores que buscan herramientas potentes y personalizables, NVIDIA TensorRT ofrece una biblioteca de inferencia de aprendizaje profundo de alto rendimiento con API que permiten optimizaciones detalladas. Los microservicios NVIDIA NIM proporcionan un marco flexible para implementar modelos de IA en la nube, centros de datos o estaciones de trabajo.
Optimizaciones para cargas de trabajo de inferencia de IA
En la actualidad, la inferencia es un problema integral que requiere una infraestructura de alto rendimiento y un software eficiente para hacer un uso eficaz de esa infraestructura. Además, las cargas de trabajo de inferencia siguen siendo cada vez más desafiantes, ya que los tamaños de los modelos siguen creciendo y las restricciones de latencia se hacen más estrictas, todo ello mientras que la cantidad de usuarios que aprovechan estos servicios de IA también sigue aumentando. Y con la introducción del escalamiento del tiempo de inferencia, un nuevo paradigma para escalar la inteligencia de los modelos, se están aplicando más cálculos durante la inferencia para mejorar el rendimiento de los modelos.
Estas tendencias significan que es importante seguir mejorando el rendimiento de la inferencia entregada, incluso en la misma plataforma de hardware subyacente. Al combinar métodos establecidos como el paralelismo de modelos, el entrenamiento de precisión mixta, la poda, la cuantificación y la optimización del preprocesamiento de datos con avances de vanguardia en tecnologías de inferencia, los desarrolladores pueden lograr ganancias notables en velocidad, escalabilidad y rentabilidad.
La biblioteca TensorRT-LLM incorpora muchas características de última generación que aceleran el rendimiento de inferencia para modelos de lenguaje grandes (LLM) , que se describen a continuación.
Optimizaciones de caché de KV y precarga
- Reutilización temprana de caché de clave-valor (KV) : al reutilizar los mensajes del sistema entre usuarios, la función de reutilización temprana de caché de KV acelera el tiempo hasta el primer token (TTFT) hasta 5 veces. El tamaño flexible de los bloques de KV y los protocolos de desalojo eficientes garantizan una gestión de memoria sin inconvenientes, lo que permite tiempos de respuesta más rápidos incluso en entornos de múltiples usuarios.
- Prellenado en fragmentos : para una implementación más inteligente, el prellenado en fragmentos divide la fase de prellenado en tareas más pequeñas, lo que mejora el uso de la GPU y reduce la latencia. Esta innovación simplifica la implementación y garantiza un rendimiento constante, incluso con demandas fluctuantes de los usuarios.
- Interacciones multivuelta con sobrecarga : la arquitectura NVIDIA GH200 Superchip permite una descarga eficiente de la caché KV, mejorando el TTFT hasta 2x en interacciones multivuelta con modelos Llama mientras mantiene un alto rendimiento.
Optimización de la decodificación
- Atención multibloque para secuencias largas : para abordar el desafío de las secuencias de entrada largas, la atención multibloque de TensorRT-LLM maximiza la utilización de la GPU al distribuir tareas entre multiprocesadores (SM) de transmisión. Esta técnica mejora el rendimiento del sistema en más de 3 veces, lo que permite admitir longitudes de contexto más grandes sin costos de hardware adicionales.
- Decodificación especulativa para acelerar el rendimiento : al aprovechar un modelo de borrador más pequeño junto con un modelo de destino más grande, la decodificación especulativa permite una mejora de hasta 3,6 veces en el rendimiento de inferencia. Este enfoque garantiza la generación de resultados de modelos a alta velocidad y alta precisión, lo que agiliza los flujos de trabajo para aplicaciones de IA a gran escala.
- Decodificación especulativa con Medusa: el algoritmo de decodificación especulativa Medusa está disponible como parte de las optimizaciones de TensorRT-LLM. Al predecir múltiples tokens subsiguientes simultáneamente, Medusa aumenta el rendimiento de los modelos Llama 3.1 hasta 1,9 veces en la plataforma NVIDIA HGX H200. Esta innovación permite respuestas más rápidas para las aplicaciones que dependen de los LLM, como la atención al cliente y la creación de contenido.
Inferencia de múltiples GPU
- Protocolo de comunicación MultiShot : las operaciones tradicionales de Ring AllReduce pueden convertirse en un cuello de botella en escenarios con múltiples GPU. TensorRT-LLM MultiShot, con tecnología de NVSwitch , reduce los pasos de comunicación a solo dos, independientemente de la cantidad de GPU. Esta innovación aumenta las velocidades de AllReduce hasta tres veces, lo que hace que la inferencia de baja latencia sea escalable y eficiente.
- Paralelismo de pipeline para una alta eficiencia de concurrencia : las técnicas de paralelismo requieren que las GPU puedan transferir datos de manera rápida y eficiente, lo que requiere una estructura de interconexión de GPU a GPU sólida para lograr el máximo rendimiento. El paralelismo de pipeline en las GPU NVIDIA H200 Tensor Core logró un aumento de rendimiento de 1,5x para Llama 3.1 405B y demostró su versatilidad con una aceleración de 1,2x para Llama 2 70B en los puntos de referencia de inferencia de MLPerf. MLPerf Inference es un conjunto de puntos de referencia de rendimiento de inferencia estándar de la industria desarrollados por el consorcio MLCommons.
- Grandes dominios NVLink: el sistema NVIDIA GH200 NVL32, equipado con 32 superchips NVIDIA GH200 Grace Hopper conectados mediante el sistema NVLink Switch y con mejoras de TensorRT-LLM, ofrece TTFT hasta 3 veces más rápido para los modelos Llama. Con hasta 127 petaflops de cómputo de IA, esta arquitectura de última generación prepara el terreno para una capacidad de respuesta en tiempo real sin precedentes en aplicaciones de IA.
Cuantificación y cálculo de menor precisión
- Optimizador de modelos NVIDIA TensorRT para precisión y rendimiento: la receta de cuantificación FP8 personalizada de NVIDIA en el Optimizador de modelos NVIDIA TensorRT ofrece un rendimiento hasta 1,44 veces superior sin sacrificar la precisión. Estas optimizaciones permiten una implementación más rentable al reducir la latencia y los requisitos de hardware para cargas de trabajo exigentes.
- Optimización integral de la pila completa: las bibliotecas NVIDIA TensorRT y las innovaciones de FP8 Tensor Core garantizan un alto rendimiento en una amplia gama de dispositivos, desde GPU de centros de datos hasta sistemas de borde. NVIDIA ha optimizado la colección de modelos Llama 3.2 para lograr un gran rendimiento, lo que demuestra cómo el software de pila completa puede liberar de forma adaptativa la eficiencia en diversos entornos de implementación de IA.
Con estas características, así como muchas otras de Triton y TensorRT-LLM, los desarrolladores ahora pueden implementar LLM que no solo sean más rápidos y eficientes, sino que también sean capaces de gestionar una gama más amplia de tareas y demandas de los usuarios. Esto abre nuevas oportunidades para que las empresas mejoren el servicio al cliente, automaticen procesos complejos y obtengan información más detallada de sus datos.
Evaluación del rendimiento de la inferencia
Para ofrecer un rendimiento de inferencia de primer nivel se necesita un conjunto completo de tecnología (chips, sistemas y software), todo lo cual contribuye a aumentar el rendimiento, reducir el consumo de energía por token y minimizar los costos.
MLPerf Inference es una medida clave del rendimiento de inferencia. El punto de referencia mide el rendimiento de inferencia en condiciones estandarizadas y los resultados están sujetos a una revisión exhaustiva por pares. El punto de referencia se actualiza periódicamente para reflejar los nuevos avances en IA, lo que garantiza que las organizaciones puedan confiar en estos resultados para evaluar el rendimiento de la plataforma.
En la última ronda de MLPerf Inference, NVIDIA Blackwell hizo su debut , ofreciendo hasta 4 veces más rendimiento que la GPU NVIDIA H100 Tensor Core en el benchmark Llama 2 70B. Este logro fue el resultado de las numerosas innovaciones arquitectónicas en el corazón de la GPU Blackwell, incluido el Transformer Engine de segunda generación con núcleos Tensor FP4 y memoria GPU HBM3e ultrarrápida que ofrece 8 TB/s de ancho de banda de memoria por GPU.
Además, muchos aspectos de la pila de software NVIDIA, incluido NVIDIA TensorRT-LLM, se rediseñaron para aprovechar las nuevas capacidades de Blackwell, como el soporte para la precisión FP4, al mismo tiempo que se sigue cumpliendo el riguroso objetivo de precisión del punto de referencia.
La GPU NVIDIA H200 Tensor Core, disponible ahora a través de los fabricantes de servidores y proveedores de servicios en la nube, también logró resultados sobresalientes en cada prueba comparativa en la categoría de centros de datos. Esto incluye la nueva prueba Mixtral 8x7B de mezcla de expertos (MoE) LLM, así como en las pruebas de texto a imagen Llama 2 70B LLM y Stable Diffusion XL. Como resultado de las mejoras de software continuas, la arquitectura Hopper brindó hasta un 27 % más de rendimiento de inferencia en comparación con la ronda anterior.
NVIDIA Triton Inference Server, que se ejecuta en un sistema con ocho GPU H200, logró un rendimiento prácticamente idéntico en comparación con la presentación de NVIDIA sin sistema operativo en el benchmark Llama 2 70B en MLPerf Inference v4.1. Esto demuestra que las empresas ya no necesitan elegir entre un servidor de inferencia de IA de nivel de producción con muchas funciones y un rendimiento de procesamiento máximo: ambos se pueden lograr simultáneamente con NVIDIA Triton.
El futuro de la inferencia de IA: tendencias y tecnologías emergentes
El panorama de la inferencia de IA está evolucionando rápidamente, impulsado por una serie de avances revolucionarios y tecnologías emergentes. Los modelos siguen volviéndose más inteligentes, ya que los aumentos en la computación a escala de centro de datos permiten el preentrenamiento de modelos más grandes. La introducción de arquitecturas de modelos de mezcla dispersa de expertos, como GPT-MoE 1.8T, también ayudará a impulsar la inteligencia del modelo al tiempo que mejora la eficiencia de computación. Estos modelos más grandes, ya sean densos o dispersos, requerirán que las GPU individualmente se vuelvan mucho más capaces. La arquitectura NVIDIA Blackwell está lista para impulsar la inferencia de IA generativa de próxima generación.
Cada GPU Blackwell cuenta con un motor Transformer de segunda generación y núcleos Tensor de quinta generación que utilizan FP4. Los formatos de datos de menor precisión ayudan a aumentar el rendimiento computacional y a reducir los requisitos de memoria. Para garantizar que puedan ofrecer importantes ventajas de rendimiento manteniendo al mismo tiempo una alta precisión, se necesita una increíble cantidad de trabajo de software.
Al mismo tiempo, para servir a los modelos más exigentes a velocidades rápidas y en tiempo real, muchas de las GPU más capaces necesitarán trabajar en conjunto para generar respuestas.
La solución a escala de rack NVIDIA GB200 NVL72 crea un dominio NVLink de 72 GPU que actúa como una única GPU masiva. Para la inferencia en tiempo real GPT-MoE 1.8T, proporciona una mejora de hasta 30 veces en el rendimiento en comparación con la GPU Hopper de la generación anterior.
Además, la aparición de una nueva ley de escalamiento (el cálculo en tiempo de prueba) ofrece otra forma de mejorar la calidad y la precisión de las respuestas para tareas aún más complejas. Este nuevo paradigma, introducido por primera vez con el modelo o1 de OpenAI, permite que los modelos “razonen” generando muchos tokens intermedios antes de generar el resultado final. Los modelos de razonamiento son particularmente útiles en dominios como las matemáticas complejas y la generación de código informático. Este nuevo paradigma está destinado a impulsar una nueva ola de avances que requieren un mayor rendimiento computacional durante el tiempo de inferencia.
El camino hacia la inteligencia artificial general dependerá de los continuos avances en el rendimiento informático de los centros de datos. El entrenamiento previo, el entrenamiento posterior y el escalamiento en tiempo de prueba dependen de una infraestructura de última generación que ejecute software diseñado por expertos. La plataforma NVIDIA está evolucionando rápidamente, con un ritmo de innovación acelerado cada año, para permitir que el ecosistema siga ampliando las fronteras de la IA.
Empezar
Consulta Cómo comenzar a utilizar la inferencia de IA , obtén más información sobre la plataforma NVIDIA AI Inference y mantente informado sobre las últimas actualizaciones de rendimiento de inferencia de IA .
Vea una demostración sobre cómo implementar rápidamente microservicios NVIDIA NIM o lea Una guía sencilla para implementar IA generativa con NVIDIA NIM . Las optimizaciones de las bibliotecas TensorRT, TensorRT-LLM y TensorRT Model Optimizer se combinan y están disponibles a través de implementaciones listas para producción mediante microservicios NVIDIA NIM .
Recursos relacionados
- Sesión de GTC: LLM Inference Sizing: evaluación comparativa de sistemas de inferencia de extremo a extremo
- Sesión de GTC: Escalamiento de la inferencia global en la nube con NVIDIA GH200 y NVIDIA AI Enterprise (presentada por Vultr)
- Sesión de GTC: Creación de una solución integral para la IA generativa preparada para la empresa
- SDK: Kit de herramientas TAO
- Seminario web: Cómo elegir sistemas de hardware para la IA en la empresa
- Seminario web: Implementación de IA generativa en producción
NVIDIA Blog. N. C. y A. E. Traducido al español