Construya Agentes de IA Empresariales con Modelos Avanzados de Razonamiento NVIDIA Llama Nemotron
Las organizaciones están abrazando Agentes de IA para mejorar la productividad y agilizar las operaciones. Para maximizar su impacto, estos agentes necesitan fuertes habilidades de razonamiento para navegar por problemas complejos, descubrir conexiones ocultas y tomar decisiones lógicas de forma autónoma en entornos dinámicos. Las organizaciones están adoptando agentes de IA para mejorar la productividad y optimizar las operaciones. Para maximizar su impacto, estos agentes necesitan sólidas capacidades de razonamiento para abordar problemas complejos, descubrir conexiones ocultas y tomar decisiones lógicas de forma autónoma en entornos dinámicos. Gracias a su capacidad para abordar problemas complejos, los modelos de razonamiento se han convertido en un componente clave del ecosistema de IA agencial. Mediante técnicas como el pensamiento a largo plazo, el mejor de N o la autoverificación, estos modelos son más eficaces en las tareas que requieren un alto grado de razonamiento, esenciales para los procesos agenciales. Los modelos de razonamiento impulsan diversas aplicaciones, desde la automatización de la atención al cliente hasta la optimización de las cadenas de suministro y la ejecución de estrategias financieras. En logística, mejoran la eficiencia al simular escenarios hipotéticos, como el redireccionamiento de envíos durante interrupciones. En la investigación científica, facilitan la generación de hipótesis y la resolución de problemas en varios pasos. En el ámbito sanitario, optimizan el diagnóstico y la planificación de tratamientos. Al permitir un razonamiento preciso y lógico, estos modelos impulsan soluciones de IA más fiables y escalables en todos los sectores. Esta publicación presenta la familia de modelos de razonamiento NVIDIA Llama Nemotron . Analizaremos el proceso de creación de esta familia de modelos de vanguardia. También exploraremos cómo estos modelos pueden usarse en agentes de IA y sistemas colaborativos multiagente para ir más allá del razonamiento y abordar tareas abiertas de dominio general. Familia de modelos de razonamiento NVIDIA Llama Nemotron En marzo de 2025, NVIDIA anunció NVIDIA Llama Nemotron , una familia abierta de modelos de IA líderes que ofrecen capacidades de razonamiento excepcionales, eficiencia computacional y una licencia abierta para uso empresarial. La familia viene en tres tamaños (Nano , Super y Ultra) , lo que proporciona a los desarrolladores el tamaño de modelo adecuado según su caso de uso, disponibilidad computacional y requisitos de precisión. Nano Nano es un procesador 8B optimizado a partir de Llama 3.1 8B para lograr la máxima precisión en PC y edge. Súper Super es 49B derivado de Llama 3.3 70B para lograr la mejor precisión con el máximo rendimiento en una GPU de centro de datos. Este modelo es el tema central de esta publicación. Ultra Ultra es 253B destilado de Llama 3.1 405B para lograr la máxima precisión de agente en servidores de centros de datos con múltiples GPU. El Llama Nemotron con modelos de razonamiento proporciona una precisión líder en los estándares de razonamiento y referencias de agencia de la industria: GPQA Diamond, AIME 2024, AIME 2025, MATH 500 y BFCL, así como Arena Hard. Además, estos modelos son comercialmente viables, ya que se basan en modelos abiertos de Llama y se entrenan con conjuntos de datos aprobados por NVIDIA, así como con datos generados sintéticamente mediante modelos abiertos. Además de las recetas descritas en esta publicación y de la licencia permisiva del modelo, también compartimos gran parte de los datos utilizados durante el proceso de post-entrenamiento de Hugging Face. Estos datos incluyen datos post-entrenamiento, con casi 30 millones de muestras de datos de alta calidad centrados en matemáticas, programación, seguimiento de instrucciones, seguridad, chat y capacidades de razonamiento. Puede obtener más información sobre el conjunto de datos de Hugging Face. Nuestro equipo se compromete a publicar datos continuamente. También hemos publicado HelpSteer3 , como continuación de nuestro trabajo previo en HelpSteer y HelpSteer2 . Descripción general del escalamiento del tiempo de prueba Antes de profundizar en cómo NVIDIA creó estos increíbles modelos, debemos explicar brevemente el escalamiento y el razonamiento en tiempo de prueba, y por qué son importantes para las organizaciones que construyen con IA. El escalamiento en tiempo de prueba es una técnica que aplica más cómputo durante el tiempo de inferencia para analizar y razonar diversas opciones, mejorando así las respuestas del modelo o sistema. Esto permite escalar el rendimiento del modelo o sistema en tareas posteriores clave. Razonar sobre problemas es una tarea compleja, y el cómputo en tiempo de prueba es fundamental para que estos modelos alcancen el nivel de razonamiento necesario para ser útiles en los casos de uso mencionados anteriormente. Permitir que el modelo dedique más recursos durante la inferencia abre un mayor abanico de posibilidades por explorar. Esto aumenta la probabilidad de que el modelo establezca la conexión necesaria o logre una solución que, de otro modo, no podría alcanzar sin el tiempo adicional. Si bien el razonamiento y el escalado en tiempo de prueba son de gran beneficio para diversas tareas importantes en los flujos de trabajo de la agencia, existe un problema común en los modelos de razonamiento de vanguardia actuales. En concreto, los desarrolladores no pueden seleccionar cuándo razona el modelo, es decir, no pueden seleccionar entre la activación y desactivación del razonamiento. La familia de modelos Llama Nemotron activa o desactiva el razonamiento mediante el aviso del sistema, lo que permite que los modelos conserven su utilidad también en dominios de problemas sin razonamiento. Construyendo Llama Nemotron con razonamiento Llama 3.3 Nemotron 49B Instruct se basó en Llama 3.3 70B Instruct . Pasó por una extensa fase de post-entrenamiento para reducir el tamaño del modelo, conservando y ampliando sus capacidades originales. Se utilizaron tres grandes fases de post-entrenamiento: La primera fase (Pasos 1 y 2) se explica en detalle en el informe técnico de Neural Architecture Search (NAS) . En forma simplificada, se puede pensar que se utiliza para «ajustar el tamaño» del recuento de parámetros de cada modelo a un recuento óptimo preseleccionado basado en hardware insignia específico a través de una serie de enfoques de destilación y NAS. La segunda fase del modelo posterior al entrenamiento (Pasos 3 y 4) implica un ajuste fino supervisado impulsado por datos sintéticos que busca lograr algunos objetivos importantes. El primer objetivo es mejorar el rendimiento sin razonamiento en una serie de tareas. Esta parte del proceso








