El Portal de las Tecnologías para la Innovación

NVIDIA Rubin CPX acelera el rendimiento y la eficiencia de la inferencia para cargas de trabajo de contexto de tokens de más de un millón

Fuente:

La inferencia se ha convertido en la nueva frontera de la complejidad en IA. Los modelos modernos están evolucionando hacia sistemas agenciales capaces de 
razonamiento multipaso , memoria persistente y contexto de largo plazo, lo que les permite abordar tareas complejas en dominios como el desarrollo de software, la generación de vídeo y la investigación exhaustiva. Estas cargas de trabajo imponen exigencias sin precedentes a la infraestructura, lo que presenta nuevos desafíos en computación, memoria y redes que exigen un replanteamiento fundamental de cómo 
se escala y optimiza la inferencia .

Entre estos desafíos, procesar contexto masivo para una clase específica de cargas de trabajo se ha vuelto cada vez más crítico. En el desarrollo de software, por ejemplo, los sistemas de IA deben razonar sobre bases de código completas, mantener dependencias entre archivos y comprender la estructura a nivel de repositorio, transformando a los asistentes de programación de herramientas de autocompletado en colaboradores inteligentes. De igual manera, las aplicaciones de video e investigación de larga duración exigen coherencia y memoria sostenidas en millones de tokens . Estos requisitos están ampliando los límites de lo que la infraestructura actual puede soportar.

Para abordar este cambio, el marco NVIDIA SMART ofrece un camino a seguir: optimiza la inferencia a escala, el rendimiento multidimensional, la arquitectura, el ROI y el ecosistema tecnológico más amplio. Se centra en una infraestructura desagregada de pila completa que permite la asignación eficiente de recursos de computación y memoria. Plataformas como NVIDIA Blackwell y NVIDIA GB200 NVL72, combinadas con NVFP4 para inferencia de baja precisión y software de código abierto como NVIDIA TensorRT-LLM y NVIDIA Dynamo, están redefiniendo el rendimiento de la inferencia en el panorama de la IA.

Este blog explora la próxima evolución en la infraestructura de inferencia desagregada y presenta NVIDIA Rubin CPX, una GPU diseñada específicamente para satisfacer las demandas de cargas de trabajo de IA de contexto largo con mayor eficiencia y retorno de la inversión.

Inferencia desagregada: un enfoque escalable para la complejidad de la IA

La inferencia consta de dos fases distintas: la fase de contexto y la fase de generación, cada una con exigencias fundamentalmente diferentes para la infraestructura. La fase de contexto está ligada al cómputo y requiere un procesamiento de alto rendimiento para ingerir y analizar grandes volúmenes de datos de entrada y generar el primer resultado de salida del token. Por el contrario, la fase de generación está ligada al ancho de banda de la memoria y se basa en transferencias rápidas de memoria e interconexiones de alta velocidad, como NVLink, para mantener el rendimiento de salida token a token.

La inferencia desagregada permite procesar estas fases de forma independiente, lo que permite optimizar los recursos de cómputo y memoria. Este cambio de arquitectura mejora el rendimiento, reduce la latencia y optimiza el uso general de los recursos (Figura 1).

Diagrama de una canalización de inferencia desagregada. Los documentos, bases de datos y vídeos alimentan un procesador de contexto (mostrado como la GPU B con intercambio a la GPU A); su salida se envía a una caché de clave-valor que lee un nodo de generación de la GPU B para generar resultados. Las etiquetas indican que la GPU A está optimizada para el procesamiento de contexto extenso, mientras que la GPU B ofrece un alto TCO tanto para el contexto como para la generación.
Figura 1. Optimización de la inferencia mediante la alineación de las capacidades de la GPU con el contexto y las cargas de trabajo de generación.

Sin embargo, la desagregación introduce nuevos niveles de complejidad, lo que requiere una coordinación precisa entre transferencias de caché KV de baja latencia, enrutamiento compatible con LLM y una gestión eficiente de la memoria. NVIDIA Dynamo actúa como capa de orquestación para estos componentes, y sus capacidades fueron fundamentales en los últimos resultados de inferencia de MLPerf. Descubra cómo la desagregación con Dynamo en GB200 NVL72 estableció nuevos récords de rendimiento . 

Para aprovechar las ventajas de la inferencia desagregada, especialmente en la fase de contexto de alto consumo de recursos, la aceleración especializada es esencial. Para abordar esta necesidad, NVIDIA presenta Rubin CPX GPU , una solución diseñada específicamente para ofrecer un alto rendimiento para cargas de trabajo de inferencia de contexto largo y de alto valor, a la vez que se integra a la perfección en la infraestructura desagregada.

Rubin CPX: diseñado para acelerar el procesamiento de contexto largo

La GPU Rubin CPX está diseñada para mejorar el rendimiento de contexto largo, complementando la infraestructura existente a la vez que ofrece eficiencia escalable y maximiza el retorno de la inversión (ROI) en implementaciones de inferencia contextual. Rubin CPX, construida con la arquitectura Rubin, ofrece un rendimiento excepcional para la fase de contexto de inferencia, que requiere un uso intensivo de recursos. Cuenta con 30 petaFLOP de computación NVFP4, 128 GB de memoria GDDR7, compatibilidad con hardware para decodificación y codificación de vídeo y una aceleración de atención tres veces superior (en comparación con NVIDIA GB300 NVL72). 

Optimizado para procesar secuencias largas de forma eficiente, Rubin CPX es fundamental para casos de uso de inferencia de alto valor, como el desarrollo de aplicaciones de software y la generación de vídeo HD. Diseñado para complementar las arquitecturas de inferencia desagregadas existentes, mejora el rendimiento y la capacidad de respuesta, a la vez que maximiza el retorno de la inversión (ROI) para cargas de trabajo de IA generativa a gran escala.

Rubin CPX funciona en conjunto con las CPU NVIDIA Vera y las GPU Rubin para el procesamiento en fase de generación, conformando una solución completa de servicio desagregado de alto rendimiento para casos de uso de contexto extenso. El rack NVIDIA Vera Rubin NVL144 CPX integra 144 GPU Rubin CPX, 144 GPU Rubin y 36 CPU Vera para ofrecer 8 exaFLOP de computación NVFP4 (7,5 veces más que el GB300 NVL72), además de 100 TB de memoria de alta velocidad y 1,7 PB/s de ancho de banda de memoria, todo en un solo rack. 

Al utilizar NVIDIA Quantum-X800 InfiniBand o Spectrum-X Ethernet, junto con NVIDIA ConnectX-9 SuperNIC y orquestado por la plataforma Dynamo, Vera Rubin NVL144 CPX está diseñado para impulsar la próxima ola de cargas de trabajo de inferencia de IA de contexto de un millón de tokens, lo que reduce los costos de inferencia y desbloquea capacidades avanzadas para desarrolladores y creadores de todo el mundo.

A gran escala, la plataforma puede ofrecer un retorno de la inversión (ROI) de 30 a 50 veces superior, lo que se traduce en hasta $5 mil millones en ingresos con una inversión de capital de $100 millones, estableciendo un nuevo referente en la economía de la inferencia. Al combinar infraestructura desagregada, aceleración y orquestación integral, Vera Rubin NVL144 CPX redefine las posibilidades para las empresas que desarrollan la próxima generación de aplicaciones de IA generativa.

La imagen de la izquierda muestra el rack NVIDIA Vera Rubin NVL144 CPX, que integra 144 GPU Rubin CPX para acelerar el procesamiento en la fase de contexto, 144 GPU Rubin conectadas mediante NVLink para el procesamiento en la fase de generación y 36 CPU Vera, todo ello alojado en un único rack Oberon para una implementación optimizada. La imagen de la derecha muestra una bandeja del rack, que contiene 2 CPU Vera, 4 GPU Rubin y 8 procesadores Rubin CPX, lo que demuestra el diseño modular y escalable del sistema.
Figura 2. Bastidor y bandeja NVIDIA Vera Rubin NVL144 CPX con GPU Rubin Context (Rubin CPX), GPU Rubin y CPU Vera

Resumen 

La GPU NVIDIA Rubin CPX y el rack NVIDIA Vera Rubin NVL144 CPX ejemplifican la filosofía de la plataforma SMART: ofrecer rendimiento escalable y multidimensional, así como un retorno de la inversión (ROI) mediante la innovación arquitectónica y la integración con el ecosistema. Impulsada por NVIDIA Dynamo y diseñada para entornos masivos, establece un nuevo estándar para la infraestructura de IA integral que crea nuevas posibilidades para las cargas de trabajo, incluyendo la codificación avanzada de software y el vídeo generativo. 

NVIDIA Blog. L DeL., K. D. y E. A. Traducido al español

Artículos relacionados

Epic Games Store

Shrine’s Legacy es un título de 16 bits que retoma la clásica fórmula de los RPG de Super Nintendo

Un joven héroe valiente, un mago misterioso, gemas mágicas y un tirano con tanta armadura que parece que no pueda ni moverse. ¿Os suena de algo? Shrine’s Legacy, el título debut de Positive Concept Games, se inspira en conceptos que han definido los juegos de rol durante décadas. Su protagonista, Rio Shrine, se embarca en una aventura para reunir ocho gemas elementales y restaurar la espada de Shrine (Sword of Shrine), la clave para derrotar al malvado Aklor.

Continuar leyendo...
Scroll al inicio