El Portal de las Tecnologías para la Innovación

Construya Agentes de IA Empresariales con Modelos Avanzados de Razonamiento NVIDIA Llama Nemotron

Las organizaciones están abrazando Agentes de IA para mejorar la productividad y agilizar las operaciones. Para maximizar su impacto, estos agentes necesitan fuertes habilidades de razonamiento para navegar por problemas complejos, descubrir conexiones ocultas y tomar decisiones lógicas de forma autónoma en entornos dinámicos.

Las organizaciones están adoptando agentes de IA para mejorar la productividad y optimizar las operaciones. Para maximizar su impacto, estos agentes necesitan sólidas capacidades de razonamiento para abordar problemas complejos, descubrir conexiones ocultas y tomar decisiones lógicas de forma autónoma en entornos dinámicos.

Gracias a su capacidad para abordar problemas complejos, los modelos de razonamiento se han convertido en un componente clave del ecosistema de IA agencial. Mediante técnicas como el pensamiento a largo plazo, el mejor de N o la autoverificación, estos modelos son más eficaces en las tareas que requieren un alto grado de razonamiento, esenciales para los procesos agenciales.  

Los modelos de razonamiento impulsan diversas aplicaciones, desde la automatización de la atención al cliente hasta la optimización de las cadenas de suministro y la ejecución de estrategias financieras. En logística, mejoran la eficiencia al simular escenarios hipotéticos, como el redireccionamiento de envíos durante interrupciones. En la investigación científica, facilitan la generación de hipótesis y la resolución de problemas en varios pasos. En el ámbito sanitario, optimizan el diagnóstico y la planificación de tratamientos. Al permitir un razonamiento preciso y lógico, estos modelos impulsan soluciones de IA más fiables y escalables en todos los sectores.

Esta publicación presenta la familia de modelos de razonamiento NVIDIA Llama Nemotron . Analizaremos el proceso de creación de esta familia de modelos de vanguardia. También exploraremos cómo estos modelos pueden usarse en agentes de IA y sistemas colaborativos multiagente para ir más allá del razonamiento y abordar tareas abiertas de dominio general.

Familia de modelos de razonamiento NVIDIA Llama Nemotron

En marzo de 2025, NVIDIA anunció NVIDIA Llama Nemotron , una familia abierta de modelos de IA líderes que ofrecen capacidades de razonamiento excepcionales, eficiencia computacional y una licencia abierta para uso empresarial.

La familia viene en tres tamaños (Nano , Super y Ultra) , lo que proporciona a los desarrolladores el tamaño de modelo adecuado según su caso de uso, disponibilidad computacional y requisitos de precisión. 

Nano

Nano es un procesador 8B optimizado a partir de Llama 3.1 8B para lograr la máxima precisión en PC y edge.

Los gráficos de barras muestran que Llama Nemotron Nano ofrece un rendimiento líder en GPQA Diamond, AIME 2025, MATH-500, BFCL, IFEval, MBPP y MTBech.
Figura 1. Llama Nemotron Nano ofrece el mejor rendimiento de su clase en una variedad de puntos de referencia de razonamiento y agencia.

Súper

Super es 49B derivado de Llama 3.3 70B para lograr la mejor precisión con el máximo rendimiento en una GPU de centro de datos. Este modelo es el tema central de esta publicación.

Los gráficos de barras muestran que Llama Nemotron Super ofrece un rendimiento líder en GPQA Diamond, AIME 2024/2025, MATH-500, MBPP, Arena Hard, BFCL e IFEval.
Figura 2. Llama Nemotron Super ofrece un rendimiento líder en una variedad de puntos de referencia de razonamiento y agencia.

Ultra

Ultra es 253B destilado de Llama 3.1 405B para lograr la máxima precisión de agente en servidores de centros de datos con múltiples GPU.

El gráfico muestra que Llama Nemotron Ultra 253B FP8 se destaca en GPQA, Complex Math es un promedio ponderado equitativamente de AIME 2024 y AIME 2025, BFCL, LiveCodeBench (24.08-25.02 para DeepSeek-R1 y Ultra, y 24.10-25.02 para Llama 3.1 405B y Llama Behemoth) e IFEval.
Figura 3. Llama Nemotron Ultra en FP8 ofrece el mejor razonamiento de su clase y un rendimiento de referencia agente.

El Llama Nemotron con modelos de razonamiento proporciona una precisión líder en los estándares de razonamiento y referencias de agencia de la industria: GPQA Diamond, AIME 2024, AIME 2025, MATH 500 y BFCL, así como Arena Hard. Además, estos modelos son comercialmente viables, ya que se basan en modelos abiertos de Llama y se entrenan con conjuntos de datos aprobados por NVIDIA, así como con datos generados sintéticamente mediante modelos abiertos.

Además de las recetas descritas en esta publicación y de la licencia permisiva del modelo, también compartimos gran parte de los datos utilizados durante el proceso de post-entrenamiento de Hugging Face. Estos datos incluyen datos post-entrenamiento, con casi 30 millones de muestras de datos de alta calidad centrados en matemáticas, programación, seguimiento de instrucciones, seguridad, chat y capacidades de razonamiento.

Puede obtener más información sobre el conjunto de datos de Hugging Face. Nuestro equipo se compromete a publicar datos continuamente. También hemos publicado HelpSteer3 , como continuación de nuestro trabajo previo en HelpSteer y HelpSteer2 .

Descripción general del escalamiento del tiempo de prueba

Antes de profundizar en cómo NVIDIA creó estos increíbles modelos, debemos explicar brevemente el escalamiento y el razonamiento en tiempo de prueba, y por qué son importantes para las organizaciones que construyen con IA.

El escalamiento en tiempo de prueba es una técnica que aplica más cómputo durante el tiempo de inferencia para analizar y razonar diversas opciones, mejorando así las respuestas del modelo o sistema. Esto permite escalar el rendimiento del modelo o sistema en tareas posteriores clave. 

Razonar sobre problemas es una tarea compleja, y el cómputo en tiempo de prueba es fundamental para que estos modelos alcancen el nivel de razonamiento necesario para ser útiles en los casos de uso mencionados anteriormente. Permitir que el modelo dedique más recursos durante la inferencia abre un mayor abanico de posibilidades por explorar. Esto aumenta la probabilidad de que el modelo establezca la conexión necesaria o logre una solución que, de otro modo, no podría alcanzar sin el tiempo adicional.

Si bien el razonamiento y el escalado en tiempo de prueba son de gran beneficio para diversas tareas importantes en los flujos de trabajo de la agencia, existe un problema común en los modelos de razonamiento de vanguardia actuales. En concreto, los desarrolladores no pueden seleccionar cuándo razona el modelo, es decir, no pueden seleccionar entre la activación y desactivación del razonamiento. La familia de modelos Llama Nemotron activa o desactiva el razonamiento mediante el aviso del sistema, lo que permite que los modelos conserven su utilidad también en dominios de problemas sin razonamiento.

Construyendo Llama Nemotron con razonamiento

Llama 3.3 Nemotron 49B Instruct se basó en Llama 3.3 70B Instruct . Pasó por una extensa fase de post-entrenamiento para reducir el tamaño del modelo, conservando y ampliando sus capacidades originales. 

Se utilizaron tres grandes fases de post-entrenamiento:

  1. Destilación mediante búsqueda de arquitectura neuronal y destilación de conocimiento. Para más información, consulte Puzzle: NAS basado en destilación para LLM optimizados para inferencia .
  2. Ajuste fino supervisado con 60 000 millones de tokens de datos sintéticos (que representan 4 000 000 de las 30 000 000 de muestras generadas) creados por NVIDIA para garantizar un contenido de alta calidad en los dominios de razonamiento positivo y negativo. Durante esta etapa, el equipo aprovechó el framework NVIDIA NeMo para escalar el flujo de trabajo posterior al entrenamiento de forma eficaz y eficiente.
  3. Una fase de aprendizaje por refuerzo (RL) completada con NVIDIA NeMo para mejorar las capacidades de chat y el seguimiento de instrucciones. Esto garantiza respuestas de alta calidad en una amplia gama de tareas.
El diagrama muestra el flujo de creación de la familia de modelos de razonamiento Llama Nemotron, que parte de la familia Llama. Estos modelos se optimizan para mejorar el rendimiento y se destilan para optimizar la eficiencia. Se adaptan a las preferencias humanas con datos sintéticos y se destilan aún más con datos sintéticos seleccionados por NVIDIA y generados a partir de DeepSeek-R1 para añadir capacidades de razonamiento.
Figura 4. Los modelos de razonamiento de Llama Nemotron se construyen sobre modelos abiertos de Llama y se entrenan posteriormente con datos sintéticos seleccionados por NVIDIA generados a partir de DeepSeek-R1 para agregar capacidades de razonamiento de alta calidad para sistemas de IA con agentes.

La primera fase (Pasos 1 y 2) se explica en detalle en el informe técnico de Neural Architecture Search (NAS) . En forma simplificada, se puede pensar que se utiliza para «ajustar el tamaño» del recuento de parámetros de cada modelo a un recuento óptimo preseleccionado basado en hardware insignia específico a través de una serie de enfoques de destilación y NAS.

La segunda fase del modelo posterior al entrenamiento (Pasos 3 y 4) implica un ajuste fino supervisado impulsado por datos sintéticos que busca lograr algunos objetivos importantes. El primer objetivo es mejorar el rendimiento sin razonamiento en una serie de tareas. Esta parte del proceso posterior al entrenamiento (Paso 3) aprovechó las indicaciones curadas por NVIDIA para crear datos sintéticos a través del modelo de referencia (Llama 3.3 70B Instruct), así como los modelos Qwen2.5 7B Math y Coder. Luego, NVIDIA curó y examinó estos datos para usarlos en el aumento del rendimiento sin razonamiento en las tareas de chat, matemáticas y código. Además, se realizó un esfuerzo significativo para garantizar que el desempeño del razonamiento en seguimiento de instrucciones y llamada de funciones fuera el mejor de su clase durante esta fase. 

El segundo objetivo (Paso 4) fue crear un modelo de razonamiento de primera clase mediante el entrenamiento con datos seleccionados de DeepSeek-R1 (solo para Matemáticas, Programación y Ciencias). Cada indicación y respuesta se seleccionó para garantizar que solo se utilizaran datos de alta calidad durante el proceso de mejora del razonamiento, con el apoyo del framework NVIDIA NeMo . Este enfoque garantiza que destilemos selectivamente las sólidas capacidades de razonamiento de DeepSeek-R1 en los dominios donde destaca.

Los pasos 3 y 4 de Reason ON/OFF se entrenaron simultáneamente y solo se diferenciaron en su indicador de sistema. Esto significa que el modelo resultante puede funcionar tanto como modelo de razonamiento como como un LLM tradicional con un interruptor (el indicador de sistema) para cambiar entre ambos modos. Esto se hizo para que las organizaciones puedan usar un único modelo con el tamaño adecuado para tareas de razonamiento y no razonamiento. 

En la fase final, se utilizó aprendizaje por refuerzo (RL) para mejorar la alineación con las intenciones y expectativas del usuario (Pasos 5 y 6). El modelo se somete a RL aprovechando el algoritmo REINFORCE y verificadores heurísticos en ambas tareas para mejorar el seguimiento de instrucciones y la llamada a funciones (Paso 5). Posteriormente, mediante aprendizaje por refuerzo basado en la retroalimentación humana (RLHF), el modelo final se alinea para casos de uso de chat utilizando el conjunto de datos HelpSteer2 y el modelo de recompensas Nemotron de NVIDIA Llama 3.1 (Paso 6).

Estos meticulosos pasos posteriores al entrenamiento dan como resultado modelos de razonamiento de primera clase, sin comprometer el rendimiento de las llamadas a funciones ni del seguimiento de instrucciones, al permitir la alternancia entre estos dos paradigmas. Esta secuencia de procesos posterior al entrenamiento crea modelos eficaces en cada paso de los flujos de trabajo y secuencias de IA de la agencia, a la vez que mantiene un recuento óptimo de parámetros para el hardware insignia de NVIDIA. 

Lograr una precisión líder en todos los puntos de referencia con Llama Nemotron Super

Los modelos NVIDIA Llama Nemotron combinan las fuertes capacidades de razonamiento de modelos como DeepSeek-R1 , con el conocimiento excepcional del mundo y el enfoque en la llamada de herramientas confiable y el seguimiento de instrucciones de Llama 3.3 70B Instruct de Meta, lo que da como resultado modelos que guían en tareas de agentes clave.

El gráfico muestra la relación entre el rendimiento y la precisión de Llama Nemotron 49B, DeepSeek R1 Llama 70B y Llama 3.3. Llama Nemotron 49B muestra la mayor precisión y un rendimiento 5 veces superior. Los valores de precisión son el promedio ponderado de los benchmarks GPQA-Diamond, AIME2025, MATH500, BFCL y Arena Hard.
Figura 5. Llama Nemotron Super proporciona la mayor precisión y rendimiento para tareas de agente, lo que reduce el costo de inferencia.

Conseguir la máxima precisión de razonamiento con Llama Nemotron Ultra 253B

Con tan solo 253 000 millones de parámetros, Llama Nemotron Ultra ofrece un rendimiento de razonamiento que iguala o incluso supera a los mejores modelos de razonamiento abierto, como DeepSeek-R1, a la vez que ofrece un rendimiento considerablemente mayor gracias a su dimensionamiento optimizado y conserva excelentes capacidades de llamada de herramientas. Esta combinación de excelentes capacidades de razonamiento sin comprometer la llamada de herramientas da como resultado un modelo líder en su clase para flujos de trabajo de agentes.

Además del proceso completo de post-entrenamiento de Llama Nemotron Super, Llama Nemotron Ultra se sometió a una fase de RL enfocada para aumentar las capacidades de razonamiento.

El gráfico muestra que Llama Nemotron Ultra proporciona un aumento de rendimiento de hasta 4 veces en comparación con DeepSeek-R1 671B y logra la mayor precisión con el promedio ponderado equitativamente de GPQA, AIME 2024, AIME 2025, BFCL, LiveCodeBench, MATH500 e IFEval.
Figura 6. Llama Nemotron Ultra proporciona una precisión excelente y un rendimiento increíble.

Sistemas de alimentación con Llama Nemotron Super para tareas complejas

Esta sección explica un nuevo enfoque de escalado en tiempo de prueba que utiliza un sistema colaborativo multiagente, con tecnología NVIDIA Llama 3.3 Nemotron 49B Instruct. Alcanza un rendimiento excepcional en el benchmark Arena Hard, un predictor clave del rendimiento de Chatbot Arena, con una puntuación de 92,7. Para más información, consulte » Los modelos dedicados de retroalimentación y edición potencian el escalado en tiempo de inferencia para tareas abiertas de dominio general» .

Muchos métodos de escalamiento en tiempo de prueba están diseñados principalmente para problemas con soluciones verificables, como problemas matemáticos, razonamiento lógico y programación competitiva. Sin embargo, muchas tareas importantes no tienen soluciones verificables, como la generación de ideas de investigación, la redacción de artículos de investigación o el desarrollo de un enfoque eficaz para la entrega de un producto de software complejo.

El sistema de escalado de tiempo de prueba Llama Nemotron aborda esta limitación. Este enfoque, más similar al humano, aborda estos problemas e implica los siguientes pasos: 

  1. Haga una lluvia de ideas sobre una o más soluciones iniciales a un problema
  2. Obtenga comentarios sobre las soluciones de amigos, colegas u otros expertos.
  3. Editar las soluciones iniciales en función de los comentarios proporcionados
  4. Seleccione la solución más prometedora después de incorporar las modificaciones

Este método permite aprovechar el escalamiento del tiempo de prueba en tareas amplias y de dominio general. 

Una buena analogía para conceptualizar este sistema de colaboración multiagente es la de un equipo que trabaja en conjunto para encontrar la mejor solución a un problema sin una solución predefinida. En cambio, el pensamiento a largo plazo puede conceptualizarse como una sola persona entrenada para reflexionar sobre un problema durante un largo periodo de tiempo, hasta llegar a una respuesta que pueda contrastarse con una clave de respuestas.

Comience a utilizar los modelos NVIDIA Llama Nemotron

Se utilizó una sofisticada combinación de destilación, búsqueda de arquitectura neuronal, aprendizaje por refuerzo y estrategias de alineación tradicionales para crear los mejores modelos de razonamiento NVIDIA Llama Nemotron . Estos modelos permiten seleccionar modelos del tamaño adecuado que no comprometen la capacidad y se construyeron para conservar sus fortalezas en el seguimiento de instrucciones y la llamada a funciones, lo que garantiza su configuración para ser multiplicadores de fuerza en sistemas de IA con agentes. Puede aprovechar estos modelos para impulsar sistemas de colaboración multiagente y abordar tareas complejas de dominio general con final abierto.

Además de que los modelos estarán disponibles en código abierto como parte de esta versión, gran parte de los datos utilizados en cada paso del proceso de entrenamiento se liberarán para uso permisivo, al igual que las recetas (mediante informes técnicos) utilizadas para entrenar cada modelo, así como el sistema de escalado en tiempo de prueba. Puedes crear tus propios modelos personalizados con SFT y RL mediante el framework NVIDIA NeMo.

Explora esta familia de modelos y empieza a crear prototipos en build.nvidia.com . Para producción, implementa un punto final de API dedicado en cualquier sistema acelerado por GPU, con el respaldo de NVIDIA AI Enterprise , para obtener alto rendimiento y confiabilidad. O bien, obtén un punto final NVIDIA NIM alojado y dedicado con solo unos clics a través de los socios del ecosistema NVIDIA, como Baseten , Fireworks AI y Together AI . También puedes encontrar la familia de modelos en Hugging Face.

Para obtener más información sobre cómo personalizar modelos de razonamiento y casos de uso para el razonamiento, consulte la sesión NVIDIA GTC 2025, Crear modelos de razonamiento para lograr una autonomía de inteligencia artificial agente avanzada . 

Recursos relacionados

NVIDIA Blog. Ch. A., T. V., Z. W., Ch. P., T. K. y J. Z. Traducido al español

Artículos relacionados

Scroll al inicio