- NVIDIA Blackwell arrasó en los nuevos benchmarks SemiAnalysis InferenceMAX v1, ofreciendo el mayor rendimiento y la mejor eficiencia general.
- InferenceMax v1 es el primer punto de referencia independiente que mide el costo total de computación en diversos modelos y escenarios del mundo real.
- Mejor retorno de la inversión: NVIDIA GB200 NVL72 ofrece una economía de fábrica de IA inigualable: una inversión de $5 millones genera $75 millones en ingresos por tokens DSR1, un retorno de la inversión de 15 veces.
- El costo total de propiedad más bajo: las optimizaciones de software NVIDIA B200 logran dos centavos por millón de tokens en gpt-oss, lo que genera un costo por token 5 veces menor en solo 2 meses.
- Mejor rendimiento e interactividad: NVIDIA B200 marca el ritmo con 60 000 tokens por segundo por GPU y 1000 tokens por segundo por usuario en gpt-oss con la última pila NVIDIA TensorRT-LLM.
A medida que la IA pasa de las respuestas únicas al razonamiento complejo, la demanda de inferencia (y la economía detrás de ella) está en expansión.
Los nuevos benchmarks independientes InferenceMAX v1 son los primeros en medir el coste total de computación en escenarios reales. ¿Los resultados? La plataforma NVIDIA Blackwell arrasó , ofreciendo un rendimiento inigualable y la mejor eficiencia general para fábricas de IA .

Una inversión de 5 millones de dólares en un sistema NVIDIA GB200 NVL72 puede generar 75 millones de dólares en ingresos por tokens. Esto supone un retorno de la inversión (ROI) de 15 veces : la nueva economía de la inferencia.
“La inferencia es donde la IA aporta valor a diario”, afirmó Ian Buck, vicepresidente de computación de alto rendimiento e hiperescala de NVIDIA. “Estos resultados demuestran que el enfoque integral de NVIDIA ofrece a los clientes el rendimiento y la eficiencia que necesitan para implementar la IA a escala”.
Ingresar a InferenceMAX v1
InferenceMAX v1, un nuevo benchmark de SemiAnalysis lanzado el lunes, es la última novedad en destacar el liderazgo de Blackwell en inferencia. Ejecuta modelos populares en las principales plataformas, mide el rendimiento en una amplia gama de casos de uso y publica resultados verificables para todos.
¿Por qué son importantes puntos de referencia como éste?
Porque la IA moderna no se trata solo de velocidad pura, sino también de eficiencia y economía a escala. A medida que los modelos pasan de las respuestas únicas al razonamiento multipaso y al uso de herramientas, generan muchos más tokens por consulta, lo que aumenta drásticamente la demanda de cómputo.
Las colaboraciones de código abierto de NVIDIA con OpenAI ( gpt-oss 120B ), Meta ( Llama 3 70B ) y DeepSeek AI ( DeepSeek R1 ) resaltan cómo los modelos impulsados por la comunidad están impulsando el razonamiento y la eficiencia de última generación.
Al colaborar con estos creadores de modelos líderes y la comunidad de código abierto, NVIDIA garantiza que los modelos más recientes estén optimizados para la infraestructura de inferencia de IA más grande del mundo. Estos esfuerzos reflejan un compromiso más amplio con los ecosistemas abiertos, donde la innovación compartida acelera el progreso para todos.
Las colaboraciones profundas con las comunidades FlashInfer, SGLang y vLLM permiten mejoras de kernel y tiempo de ejecución desarrolladas en conjunto que potencian estos modelos a escala.
Las optimizaciones de software ofrecen mejoras continuas en el rendimiento
NVIDIA mejora continuamente el rendimiento mediante optimizaciones de diseño de código de hardware y software. El rendimiento inicial de gpt-oss-120b en un sistema NVIDIA DGX Blackwell B200 con la biblioteca NVIDIA TensorRT LLM fue líder del mercado, pero los equipos de NVIDIA y la comunidad han optimizado significativamente TensorRT LLM para modelos de lenguajes grandes de código abierto.

El lanzamiento de TensorRT LLM v1.0 es un gran avance que permite que los modelos de IA de gran tamaño sean más rápidos y respondan mejor para todos.
Mediante técnicas de paralelización avanzadas, utiliza el sistema B200 y el ancho de banda bidireccional de 1.800 GB/s de NVIDIA NVLink Switch para mejorar drásticamente el rendimiento del modelo gpt-oss-120b.
La innovación no termina ahí. El nuevo modelo gpt-oss-120b-Eagle3-v2 introduce la decodificación especulativa , un método inteligente que predice múltiples tokens a la vez.
Esto reduce el retraso y ofrece resultados aún más rápidos, triplicando el rendimiento a 100 tokens por segundo por usuario (TPS/usuario), lo que aumenta las velocidades por GPU de 6000 a 30 000 tokens.
Para modelos de IA densos como Llama 3.3 70B, que demandan importantes recursos computacionales debido a su gran cantidad de parámetros y al hecho de que todos los parámetros se utilizan simultáneamente durante la inferencia, NVIDIA Blackwell B200 establece un nuevo estándar de rendimiento en los puntos de referencia de InferenceMAX v1.

Blackwell ofrece más de 10 000 TPS por GPU a 50 TPS por interactividad del usuario: un rendimiento por GPU cuatro veces mayor en comparación con la GPU NVIDIA H200.
La eficiencia del rendimiento genera valor
Métricas como tokens por vatio, coste por millón de tokens y TPS/usuario son tan importantes como el rendimiento. De hecho, para fábricas de IA con limitaciones de potencia, Blackwell ofrece un rendimiento por megavatio diez veces superior al de la generación anterior, lo que se traduce en mayores ingresos por tokens.

El coste por token es crucial para evaluar la eficiencia del modelo de IA, lo que impacta directamente en los gastos operativos. La arquitectura NVIDIA Blackwell redujo el coste por millón de tokens 15 veces en comparación con la generación anterior, lo que generó ahorros sustanciales y fomentó una mayor implementación e innovación en IA.

Rendimiento multidimensional
InferenceMAX utiliza la frontera de Pareto (una curva que muestra las mejores compensaciones entre diferentes factores, como el rendimiento y la capacidad de respuesta del centro de datos) para mapear el rendimiento.
Pero es más que un simple gráfico. Refleja cómo NVIDIA Blackwell equilibra todas las prioridades de producción: coste, eficiencia energética, rendimiento y capacidad de respuesta. Este equilibrio permite obtener el máximo retorno de la inversión (ROI) en cargas de trabajo reales.
Los sistemas que se optimizan para un solo modo o escenario pueden alcanzar su máximo rendimiento de forma aislada, pero su rentabilidad no es escalable. El diseño integral de Blackwell ofrece eficiencia y valor donde más importa: en producción.
Para obtener una visión más profunda de cómo se construyen estas curvas (y por qué son importantes para el costo total de propiedad y la planificación del acuerdo de nivel de servicio), consulte este análisis técnico profundo para ver los gráficos completos y la metodología.
¿Qué lo hace posible?
El liderazgo de Blackwell se basa en un diseño de código hardware-software extremo. Se trata de una arquitectura integral diseñada para la velocidad, la eficiencia y la escalabilidad:
- Las características de la arquitectura de Blackwell incluyen:
- Formato NVFP4 de baja precisión para eficiencia sin pérdida de precisión
- NVIDIA NVLink de quinta generación que conecta 72 GPU Blackwell para actuar como una GPU gigante
- NVLink Switch , que permite una alta concurrencia a través de algoritmos avanzados de atención paralela de datos, expertos y tensoriales
- Cadencia anual de hardware más optimización continua de software: NVIDIA ha más que duplicado el rendimiento de Blackwell desde su lanzamiento utilizando solo software
- NVIDIA TensorRT-LLM, NVIDIA Dynamo , SGLang y vLLM son marcos de inferencia de código abierto optimizados para un rendimiento máximo
- Un ecosistema masivo , con cientos de millones de GPU instaladas, 7 millones de desarrolladores de CUDA y contribuciones a más de 1000 proyectos de código abierto
El panorama más amplio
La IA está pasando de los pilotos a las fábricas de IA: infraestructura que fabrica inteligencia convirtiendo datos en tokens y decisiones en tiempo real.
Los puntos de referencia abiertos y actualizados con frecuencia ayudan a los equipos a tomar decisiones informadas sobre la plataforma, a ajustarse al costo por token, a los acuerdos de nivel de servicio de latencia y a la utilización en cargas de trabajo cambiantes.
El marco Think SMART de NVIDIA ayuda a las empresas a transitar este cambio , destacando cómo la plataforma de inferencia de pila completa de NVIDIA ofrece un retorno de la inversión (ROI) en el mundo real, convirtiendo el rendimiento en ganancias.
NVIDIA Blog. D. H. Traducido al español
