La introducción de la comunidad llm-d en Red Hat Summit 2025 marca un avance significativo en la aceleración de la innovación en inferencia de IA generativa para el ecosistema de código abierto.
Basado en vLLM e Inference Gateway, llm-d amplía las capacidades de vLLM con una arquitectura nativa de Kubernetes para implementaciones de inferencia a gran escala.
Esta publicación explica los componentes clave de NVIDIA Dynamo que respaldan el proyecto llm-d.
Transferencia acelerada de datos de inferencia
La inferencia distribuida a gran escala aprovecha técnicas de paralelismo de modelos —como el paralelismo tensorial, el de pipeline y el de expertos— que se basan en la comunicación entre nodos e intranodos, de baja latencia y alto rendimiento. También requieren una rápida transferencia de caché KV entre los trabajadores de GPU de precarga y decodificación en entornos de servicio desagregados.
Para permitir la transferencia de datos distribuidos y desagregados de alto rendimiento y baja latencia, llm-d utiliza NVIDIA NIXL . Parte de NVIDIA Dynamo, NIXL es una biblioteca de comunicación punto a punto de alto rendimiento y baja latencia que proporciona una API de movimiento de datos consistente para mover datos de forma rápida y asíncrona entre diferentes niveles de memoria y almacenamiento utilizando la misma semántica. Está específicamente optimizada para el movimiento de datos de inferencia, lo que permite transferencias de datos no bloqueantes y no contiguas entre diversos tipos de memoria y almacenamiento. llm-d utiliza NIXL para acelerar la transferencia de datos de caché KV entre el prellenado y la decodificación en configuraciones de servicio desagregadas.
Desagregación de prellenado y decodificación
Las implementaciones tradicionales de modelos de lenguaje grande (LLM) ejecutan tanto la fase de precarga, que requiere un alto consumo de recursos, como la de decodificación, que requiere un alto consumo de memoria, en la misma GPU. Esto genera un uso ineficiente de recursos y una optimización limitada del rendimiento. El servicio desagregado soluciona este problema separando ambas fases en diferentes GPU o nodos, lo que permite una optimización independiente y un mejor uso del hardware.
El servicio desagregado requiere una programación cuidadosa de las solicitudes en los nodos de prellenado y decodificación. Para acelerar la adopción del servicio desagregado en la comunidad de código abierto, NVIDIA ha apoyado el diseño y la implementación de algoritmos de programación de solicitudes de prellenado y decodificación en el proyecto vLLM.
De cara al futuro, NVIDIA se complace en seguir colaborando con la comunidad llm-d con contribuciones adicionales, como se detalla en las siguientes secciones.
Planificación dinámica de recursos de la GPU
Los métodos tradicionales de escalado automático basados en métricas como las consultas por segundo (QPS) son inadecuados para los sistemas modernos de servicio LLM, especialmente aquellos que utilizan servicio desagregado. Esto se debe a que las cargas de trabajo de inferencia varían significativamente en las longitudes de secuencia de entrada (ISL) y de salida (OSL). Mientras que las ISL largas exigen más de las GPU de prellenado, las OSL largas sobrecargan las GPU de decodificación.
Las cargas de trabajo dinámicas con ISL y OSL variables hacen que métricas simples como QPS no sean fiables para predecir las necesidades de recursos ni para equilibrar la carga de la GPU en configuraciones de servicio desagregadas. Para facilitar esta gestión de la complejidad, NVIDIA colaborará con la comunidad llm-d para incorporar las ventajas de NVIDIA Dynamo Planner al componente Variant Autoscaler de llm-d. Dynamo Planner es un motor de planificación especializado que comprende las exigencias específicas de la inferencia LLM y puede escalar de forma inteligente el tipo de GPU adecuado en el momento oportuno.
Descarga de caché de KV
Gestionar el alto coste de almacenar grandes volúmenes de caché KV en la memoria de la GPU se ha convertido en un reto importante para los equipos de inferencia de IA. Para abordar este reto, NVIDIA colaborará con la comunidad para incorporar las ventajas de NVIDIA Dynamo KV Cache Manager al subsistema de caché KV de llm-d.
El administrador de caché KV de Dynamo transfiere la caché KV de acceso menos frecuente a soluciones de almacenamiento más rentables, como la memoria del host de la CPU, SSD o almacenamiento en red. Esta estrategia permite a las organizaciones almacenar grandes volúmenes de caché KV a un costo mucho menor, liberando valiosos recursos de la GPU para otras tareas. El administrador de caché KV de Dynamo utiliza NIXL para interactuar con diferentes proveedores de almacenamiento, lo que permite la organización fluida de la caché KV en niveles para llm-d.
Ofreciendo inferencia de IA optimizada con NVIDIA NIM
Para las empresas que buscan la agilidad de la innovación de código abierto, combinada con la fiabilidad, la seguridad y el soporte de una oferta comercial con licencia, NVIDIA NIM integra la tecnología de inferencia líder de NVIDIA y la comunidad. Esto incluye SGLang, NVIDIA TensorRT-LLM y vLLM, con compatibilidad con componentes de Dynamo próximamente. NVIDIA NIM, un conjunto de microservicios fáciles de usar diseñados para una implementación segura y fiable de inferencia de modelos de IA de alto rendimiento en nubes, centros de datos y estaciones de trabajo, es compatible con la licencia comercial NVIDIA AI Enterprise en Red Hat OpenShift AI.
NVIDIA y Red Hat cuentan con una larga trayectoria de colaboración para dar soporte a Red Hat OpenShift y Red Hat OpenShift AI en la computación acelerada de NVIDIA. Para simplificar la implementación, la gestión y el escalado de las cargas de trabajo de entrenamiento e inferencia de IA, NVIDIA GPU Operator , NVIDIA Network Operator y NVIDIA NIM Operator están certificados en Red Hat OpenShift y son compatibles con Red Hat OpenShift AI.
Red Hat también ha integrado NVIDIA NIM en el catálogo de aplicaciones Red Hat OpenShift AI . Red Hat admite Red Hat OpenShift y Red Hat OpenShift AI para su ejecución en cualquier sistema certificado por NVIDIA y actualmente trabaja con NVIDIA para validar la compatibilidad con sistemas NVIDIA GB200 NVL72 .
Comience a avanzar en la inferencia de código abierto
Para obtener más información sobre cómo NVIDIA apoya el proyecto llm-d, mire la conferencia principal de Red Hat Summit 2025 para obtener una descripción general del proyecto llm-d y escuche el panel de expertos con líderes de Google, Neural Magic, NVIDIA y Red Hat.
El software de código abierto es la base de las tecnologías nativas de la nube de NVIDIA . NVIDIA contribuye a proyectos y comunidades de código abierto, incluyendo entornos de ejecución de contenedores, operadores y extensiones de Kubernetes, y herramientas de monitorización.
Se anima a los desarrolladores e investigadores de IA a unirse al desarrollo de los proyectos llm-d y NVIDIA Dynamo en GitHub y contribuir a dar forma al futuro de la inferencia de código abierto .
Recursos relacionados
- Sesión de GTC: Presentación de NVIDIA Dynamo: un marco de inferencia distribuida que sirve para modelos de razonamiento
- Sesión de GTC: Acelerar la inferencia en las GPU NVIDIA
- Sesión de GTC: Servicios LLM de alto rendimiento en dispositivos perimetrales (NVIDIA Jetson AGX Orin 32 GB)
- Contenedores NGC: Phind-CodeLlama-34B-v2-Instruct
- SDK: Servidor de inferencia Triton
- SDK: Torch-TensorRT
NVIDIA Blog. A. E., H. K. y M. R. Traducido al español