Las organizaciones están abrazando Agentes de IA para mejorar la productividad y agilizar las operaciones. Para maximizar su impacto, estos agentes necesitan fuertes habilidades de razonamiento para navegar por problemas complejos, descubrir conexiones ocultas y tomar decisiones lógicas de forma autónoma en entornos dinámicos.
Las organizaciones están adoptando agentes de IA para mejorar la productividad y optimizar las operaciones. Para maximizar su impacto, estos agentes necesitan sólidas capacidades de razonamiento para abordar problemas complejos, descubrir conexiones ocultas y tomar decisiones lógicas de forma autónoma en entornos dinámicos.
Gracias a su capacidad para abordar problemas complejos, los modelos de razonamiento se han convertido en un componente clave del ecosistema de IA agencial. Mediante técnicas como el pensamiento a largo plazo, el mejor de N o la autoverificación, estos modelos son más eficaces en las tareas que requieren un alto grado de razonamiento, esenciales para los procesos agenciales.
Los modelos de razonamiento impulsan diversas aplicaciones, desde la automatización de la atención al cliente hasta la optimización de las cadenas de suministro y la ejecución de estrategias financieras. En logística, mejoran la eficiencia al simular escenarios hipotéticos, como el redireccionamiento de envíos durante interrupciones. En la investigación científica, facilitan la generación de hipótesis y la resolución de problemas en varios pasos. En el ámbito sanitario, optimizan el diagnóstico y la planificación de tratamientos. Al permitir un razonamiento preciso y lógico, estos modelos impulsan soluciones de IA más fiables y escalables en todos los sectores.
Esta publicación presenta la familia de modelos de razonamiento NVIDIA Llama Nemotron . Analizaremos el proceso de creación de esta familia de modelos de vanguardia. También exploraremos cómo estos modelos pueden usarse en agentes de IA y sistemas colaborativos multiagente para ir más allá del razonamiento y abordar tareas abiertas de dominio general.
Familia de modelos de razonamiento NVIDIA Llama Nemotron
En marzo de 2025, NVIDIA anunció NVIDIA Llama Nemotron , una familia abierta de modelos de IA líderes que ofrecen capacidades de razonamiento excepcionales, eficiencia computacional y una licencia abierta para uso empresarial.
La familia viene en tres tamaños (Nano , Super y Ultra) , lo que proporciona a los desarrolladores el tamaño de modelo adecuado según su caso de uso, disponibilidad computacional y requisitos de precisión.
Nano
Nano es un procesador 8B optimizado a partir de Llama 3.1 8B para lograr la máxima precisión en PC y edge.

Súper
Super es 49B derivado de Llama 3.3 70B para lograr la mejor precisión con el máximo rendimiento en una GPU de centro de datos. Este modelo es el tema central de esta publicación.

Ultra
Ultra es 253B destilado de Llama 3.1 405B para lograr la máxima precisión de agente en servidores de centros de datos con múltiples GPU.

El Llama Nemotron con modelos de razonamiento proporciona una precisión líder en los estándares de razonamiento y referencias de agencia de la industria: GPQA Diamond, AIME 2024, AIME 2025, MATH 500 y BFCL, así como Arena Hard. Además, estos modelos son comercialmente viables, ya que se basan en modelos abiertos de Llama y se entrenan con conjuntos de datos aprobados por NVIDIA, así como con datos generados sintéticamente mediante modelos abiertos.
Además de las recetas descritas en esta publicación y de la licencia permisiva del modelo, también compartimos gran parte de los datos utilizados durante el proceso de post-entrenamiento de Hugging Face. Estos datos incluyen datos post-entrenamiento, con casi 30 millones de muestras de datos de alta calidad centrados en matemáticas, programación, seguimiento de instrucciones, seguridad, chat y capacidades de razonamiento.
Puede obtener más información sobre el conjunto de datos de Hugging Face. Nuestro equipo se compromete a publicar datos continuamente. También hemos publicado HelpSteer3 , como continuación de nuestro trabajo previo en HelpSteer y HelpSteer2 .
Descripción general del escalamiento del tiempo de prueba
Antes de profundizar en cómo NVIDIA creó estos increíbles modelos, debemos explicar brevemente el escalamiento y el razonamiento en tiempo de prueba, y por qué son importantes para las organizaciones que construyen con IA.
El escalamiento en tiempo de prueba es una técnica que aplica más cómputo durante el tiempo de inferencia para analizar y razonar diversas opciones, mejorando así las respuestas del modelo o sistema. Esto permite escalar el rendimiento del modelo o sistema en tareas posteriores clave.
Razonar sobre problemas es una tarea compleja, y el cómputo en tiempo de prueba es fundamental para que estos modelos alcancen el nivel de razonamiento necesario para ser útiles en los casos de uso mencionados anteriormente. Permitir que el modelo dedique más recursos durante la inferencia abre un mayor abanico de posibilidades por explorar. Esto aumenta la probabilidad de que el modelo establezca la conexión necesaria o logre una solución que, de otro modo, no podría alcanzar sin el tiempo adicional.
Si bien el razonamiento y el escalado en tiempo de prueba son de gran beneficio para diversas tareas importantes en los flujos de trabajo de la agencia, existe un problema común en los modelos de razonamiento de vanguardia actuales. En concreto, los desarrolladores no pueden seleccionar cuándo razona el modelo, es decir, no pueden seleccionar entre la activación y desactivación del razonamiento. La familia de modelos Llama Nemotron activa o desactiva el razonamiento mediante el aviso del sistema, lo que permite que los modelos conserven su utilidad también en dominios de problemas sin razonamiento.
Construyendo Llama Nemotron con razonamiento
Llama 3.3 Nemotron 49B Instruct se basó en Llama 3.3 70B Instruct . Pasó por una extensa fase de post-entrenamiento para reducir el tamaño del modelo, conservando y ampliando sus capacidades originales.
Se utilizaron tres grandes fases de post-entrenamiento:
- Destilación mediante búsqueda de arquitectura neuronal y destilación de conocimiento. Para más información, consulte Puzzle: NAS basado en destilación para LLM optimizados para inferencia .
- Ajuste fino supervisado con 60 000 millones de tokens de datos sintéticos (que representan 4 000 000 de las 30 000 000 de muestras generadas) creados por NVIDIA para garantizar un contenido de alta calidad en los dominios de razonamiento positivo y negativo. Durante esta etapa, el equipo aprovechó el framework NVIDIA NeMo para escalar el flujo de trabajo posterior al entrenamiento de forma eficaz y eficiente.
- Una fase de aprendizaje por refuerzo (RL) completada con NVIDIA NeMo para mejorar las capacidades de chat y el seguimiento de instrucciones. Esto garantiza respuestas de alta calidad en una amplia gama de tareas.

La primera fase (Pasos 1 y 2) se explica en detalle en el informe técnico de Neural Architecture Search (NAS) . En forma simplificada, se puede pensar que se utiliza para «ajustar el tamaño» del recuento de parámetros de cada modelo a un recuento óptimo preseleccionado basado en hardware insignia específico a través de una serie de enfoques de destilación y NAS.
La segunda fase del modelo posterior al entrenamiento (Pasos 3 y 4) implica un ajuste fino supervisado impulsado por datos sintéticos que busca lograr algunos objetivos importantes. El primer objetivo es mejorar el rendimiento sin razonamiento en una serie de tareas. Esta parte del proceso posterior al entrenamiento (Paso 3) aprovechó las indicaciones curadas por NVIDIA para crear datos sintéticos a través del modelo de referencia (Llama 3.3 70B Instruct), así como los modelos Qwen2.5 7B Math y Coder. Luego, NVIDIA curó y examinó estos datos para usarlos en el aumento del rendimiento sin razonamiento en las tareas de chat, matemáticas y código. Además, se realizó un esfuerzo significativo para garantizar que el desempeño del razonamiento en seguimiento de instrucciones y llamada de funciones fuera el mejor de su clase durante esta fase.
El segundo objetivo (Paso 4) fue crear un modelo de razonamiento de primera clase mediante el entrenamiento con datos seleccionados de DeepSeek-R1 (solo para Matemáticas, Programación y Ciencias). Cada indicación y respuesta se seleccionó para garantizar que solo se utilizaran datos de alta calidad durante el proceso de mejora del razonamiento, con el apoyo del framework NVIDIA NeMo . Este enfoque garantiza que destilemos selectivamente las sólidas capacidades de razonamiento de DeepSeek-R1 en los dominios donde destaca.
Los pasos 3 y 4 de Reason ON/OFF se entrenaron simultáneamente y solo se diferenciaron en su indicador de sistema. Esto significa que el modelo resultante puede funcionar tanto como modelo de razonamiento como como un LLM tradicional con un interruptor (el indicador de sistema) para cambiar entre ambos modos. Esto se hizo para que las organizaciones puedan usar un único modelo con el tamaño adecuado para tareas de razonamiento y no razonamiento.
En la fase final, se utilizó aprendizaje por refuerzo (RL) para mejorar la alineación con las intenciones y expectativas del usuario (Pasos 5 y 6). El modelo se somete a RL aprovechando el algoritmo REINFORCE y verificadores heurísticos en ambas tareas para mejorar el seguimiento de instrucciones y la llamada a funciones (Paso 5). Posteriormente, mediante aprendizaje por refuerzo basado en la retroalimentación humana (RLHF), el modelo final se alinea para casos de uso de chat utilizando el conjunto de datos HelpSteer2 y el modelo de recompensas Nemotron de NVIDIA Llama 3.1 (Paso 6).
Estos meticulosos pasos posteriores al entrenamiento dan como resultado modelos de razonamiento de primera clase, sin comprometer el rendimiento de las llamadas a funciones ni del seguimiento de instrucciones, al permitir la alternancia entre estos dos paradigmas. Esta secuencia de procesos posterior al entrenamiento crea modelos eficaces en cada paso de los flujos de trabajo y secuencias de IA de la agencia, a la vez que mantiene un recuento óptimo de parámetros para el hardware insignia de NVIDIA.
Lograr una precisión líder en todos los puntos de referencia con Llama Nemotron Super
Los modelos NVIDIA Llama Nemotron combinan las fuertes capacidades de razonamiento de modelos como DeepSeek-R1 , con el conocimiento excepcional del mundo y el enfoque en la llamada de herramientas confiable y el seguimiento de instrucciones de Llama 3.3 70B Instruct de Meta, lo que da como resultado modelos que guían en tareas de agentes clave.

Conseguir la máxima precisión de razonamiento con Llama Nemotron Ultra 253B
Con tan solo 253 000 millones de parámetros, Llama Nemotron Ultra ofrece un rendimiento de razonamiento que iguala o incluso supera a los mejores modelos de razonamiento abierto, como DeepSeek-R1, a la vez que ofrece un rendimiento considerablemente mayor gracias a su dimensionamiento optimizado y conserva excelentes capacidades de llamada de herramientas. Esta combinación de excelentes capacidades de razonamiento sin comprometer la llamada de herramientas da como resultado un modelo líder en su clase para flujos de trabajo de agentes.
Además del proceso completo de post-entrenamiento de Llama Nemotron Super, Llama Nemotron Ultra se sometió a una fase de RL enfocada para aumentar las capacidades de razonamiento.

Sistemas de alimentación con Llama Nemotron Super para tareas complejas
Esta sección explica un nuevo enfoque de escalado en tiempo de prueba que utiliza un sistema colaborativo multiagente, con tecnología NVIDIA Llama 3.3 Nemotron 49B Instruct. Alcanza un rendimiento excepcional en el benchmark Arena Hard, un predictor clave del rendimiento de Chatbot Arena, con una puntuación de 92,7. Para más información, consulte » Los modelos dedicados de retroalimentación y edición potencian el escalado en tiempo de inferencia para tareas abiertas de dominio general» .
Muchos métodos de escalamiento en tiempo de prueba están diseñados principalmente para problemas con soluciones verificables, como problemas matemáticos, razonamiento lógico y programación competitiva. Sin embargo, muchas tareas importantes no tienen soluciones verificables, como la generación de ideas de investigación, la redacción de artículos de investigación o el desarrollo de un enfoque eficaz para la entrega de un producto de software complejo.
El sistema de escalado de tiempo de prueba Llama Nemotron aborda esta limitación. Este enfoque, más similar al humano, aborda estos problemas e implica los siguientes pasos:
- Haga una lluvia de ideas sobre una o más soluciones iniciales a un problema
- Obtenga comentarios sobre las soluciones de amigos, colegas u otros expertos.
- Editar las soluciones iniciales en función de los comentarios proporcionados
- Seleccione la solución más prometedora después de incorporar las modificaciones
Este método permite aprovechar el escalamiento del tiempo de prueba en tareas amplias y de dominio general.
Una buena analogía para conceptualizar este sistema de colaboración multiagente es la de un equipo que trabaja en conjunto para encontrar la mejor solución a un problema sin una solución predefinida. En cambio, el pensamiento a largo plazo puede conceptualizarse como una sola persona entrenada para reflexionar sobre un problema durante un largo periodo de tiempo, hasta llegar a una respuesta que pueda contrastarse con una clave de respuestas.
Comience a utilizar los modelos NVIDIA Llama Nemotron
Se utilizó una sofisticada combinación de destilación, búsqueda de arquitectura neuronal, aprendizaje por refuerzo y estrategias de alineación tradicionales para crear los mejores modelos de razonamiento NVIDIA Llama Nemotron . Estos modelos permiten seleccionar modelos del tamaño adecuado que no comprometen la capacidad y se construyeron para conservar sus fortalezas en el seguimiento de instrucciones y la llamada a funciones, lo que garantiza su configuración para ser multiplicadores de fuerza en sistemas de IA con agentes. Puede aprovechar estos modelos para impulsar sistemas de colaboración multiagente y abordar tareas complejas de dominio general con final abierto.
Además de que los modelos estarán disponibles en código abierto como parte de esta versión, gran parte de los datos utilizados en cada paso del proceso de entrenamiento se liberarán para uso permisivo, al igual que las recetas (mediante informes técnicos) utilizadas para entrenar cada modelo, así como el sistema de escalado en tiempo de prueba. Puedes crear tus propios modelos personalizados con SFT y RL mediante el framework NVIDIA NeMo.
Explora esta familia de modelos y empieza a crear prototipos en build.nvidia.com . Para producción, implementa un punto final de API dedicado en cualquier sistema acelerado por GPU, con el respaldo de NVIDIA AI Enterprise , para obtener alto rendimiento y confiabilidad. O bien, obtén un punto final NVIDIA NIM alojado y dedicado con solo unos clics a través de los socios del ecosistema NVIDIA, como Baseten , Fireworks AI y Together AI . También puedes encontrar la familia de modelos en Hugging Face.
Para obtener más información sobre cómo personalizar modelos de razonamiento y casos de uso para el razonamiento, consulte la sesión NVIDIA GTC 2025, Crear modelos de razonamiento para lograr una autonomía de inteligencia artificial agente avanzada .
Recursos relacionados
- Sesión de GTC: Construir modelos de razonamiento para lograr una autonomía avanzada de IA agente
- Sesión de GTC: Creación de volantes de datos escalables para la mejora continua de los agentes de IA
- Sesión de GTC: Desarrollo de una IA preparada para el futuro con agentes y volantes de datos: perspectivas de las implementaciones empresariales de NVIDIA
- Contenedores NGC: Llama-3.1-Nemotron-70B-Instruct
- Contenedores NGC: nemotron-4-340b-instruct
- Seminario web: Optimización de la inferencia en modelos de lenguaje grandes con NVIDIA
NVIDIA Blog. Ch. A., T. V., Z. W., Ch. P., T. K. y J. Z. Traducido al español