
NVIDIA pone a disposición de la comunidad de desarrolladores de IA física los modelos de Cosmos World Foundation
Modelos de última generación entrenados en millones de horas de videos de conducción y robótica para democratizar el desarrollo de IA física, disponibles bajo licencia de modelo abierto. NVIDIA Cosmos , una plataforma para acelerar el desarrollo de IA física , presenta una familia de modelos de base mundial (redes neuronales que pueden predecir y generar videos conscientes de la física del estado futuro de un entorno virtual) para ayudar a los desarrolladores a construir robots y vehículos autónomos (VA) de próxima generación. Los modelos de base mundial, o WFM, son tan fundamentales como los grandes modelos de lenguaje. Utilizan datos de entrada, incluidos texto, imágenes, videos y movimiento, para generar y simular mundos virtuales de una manera que modela con precisión las relaciones espaciales de los objetos en la escena y sus interacciones físicas. Anunciado hoy en CES , NVIDIA está poniendo a disposición la primera ola de Cosmos WFM para simulación basada en física y generación de datos sintéticos, además de tokenizadores de última generación, barandillas, un proceso de curación y procesamiento de datos acelerado y un marco para la personalización y optimización de modelos. Los investigadores y desarrolladores, independientemente del tamaño de su empresa, pueden utilizar libremente los modelos Cosmos bajo la licencia de modelo abierto permisiva de NVIDIA que permite el uso comercial. Las empresas que crean agentes de IA también pueden utilizar los nuevos modelos abiertos NVIDIA Llama Nemotron y Cosmos Nemotron , presentados en el CES. La apertura de los modelos de vanguardia de Cosmos permite a los desarrolladores de IA física crear tecnología robótica y de vehículos autónomos y permite a las empresas de todos los tamaños llevar más rápidamente sus aplicaciones de IA física al mercado. Los desarrolladores pueden utilizar los modelos de Cosmos directamente para generar datos sintéticos basados en la física, o pueden aprovechar el marco NVIDIA NeMo para ajustar los modelos con sus propios vídeos para configuraciones de IA física específicas. Los líderes de IA física, incluidas las empresas de robótica 1X, Agility Robotics y XPENG, y los desarrolladores de AV Uber y Waabi, ya están trabajando con Cosmos para acelerar y mejorar el desarrollo de modelos. Los desarrolladores pueden obtener una vista previa de los primeros modelos autorregresivos y de difusión de Cosmos en el catálogo de API de NVIDIA , y descargar la familia de modelos y el marco de ajuste fino del catálogo NVIDIA NGC y Hugging Face . Modelos fundacionales mundiales para la IA física Los modelos de base del mundo Cosmos son un conjunto de modelos de difusión abierta y de transformadores autorregresivos para la generación de videos que tienen en cuenta la física. Los modelos se han entrenado con 9000 billones de tokens a partir de 20 millones de horas de interacciones humanas, ambientales, industriales, robóticas y datos de conducción del mundo real. Los modelos se dividen en tres categorías: Nano, para modelos optimizados para inferencia de baja latencia en tiempo real e implementación en el borde; Super, para modelos de referencia de alto rendimiento; y Ultra, para máxima calidad y fidelidad, ideal para destilar modelos personalizados. Cuando se combinan con las salidas 3D de NVIDIA Omniverse , los modelos de difusión generan datos de video sintéticos controlables y de alta calidad para iniciar el entrenamiento de modelos de percepción robótica y de vehículos autónomos. Los modelos autorregresivos predicen lo que debería suceder a continuación en una secuencia de fotogramas de video en función de los fotogramas de entrada y el texto. Esto permite la predicción del siguiente token en tiempo real, lo que brinda a los modelos de IA físicos la previsión para predecir su próxima mejor acción. Los desarrolladores pueden utilizar los modelos abiertos de Cosmos para la generación de texto a mundo y de video a mundo. Las versiones de los modelos de difusión y autorregresivo, con entre 4 y 14 mil millones de parámetros cada una, ya están disponibles en el catálogo de NGC y en Hugging Face . También están disponibles un modelo de muestreo ascendente de 12 mil millones de parámetros para refinar las indicaciones de texto, un decodificador de video de 7 mil millones de parámetros optimizado para la realidad aumentada y modelos de barandilla para garantizar un uso responsable y seguro. Para demostrar oportunidades de personalización, NVIDIA también está lanzando muestras de modelos optimizados para aplicaciones verticales, como la generación de vistas de múltiples sensores para vehículos autónomos. Avances en robótica y aplicaciones para vehículos autónomos Los modelos básicos del mundo Cosmos pueden permitir la generación de datos sintéticos para aumentar los conjuntos de datos de entrenamiento, la simulación para probar y depurar modelos físicos de IA antes de que se implementen en el mundo real y el aprendizaje de refuerzo en entornos virtuales para acelerar el aprendizaje de los agentes de IA . Los desarrolladores pueden generar cantidades masivas de datos sintéticos controlables basados en la física al condicionar Cosmos con escenas 3D compuestas de NVIDIA Omniverse. Waabi, una empresa pionera en la IA generativa para el mundo físico, comenzando con los vehículos autónomos, está evaluando el uso de Cosmos para la búsqueda y conservación de datos de vídeo para el desarrollo y simulación de software de vehículos autónomos. Esto acelerará aún más el enfoque líder en la industria de la empresa en materia de seguridad, que se basa en Waabi World, un simulador de IA generativa que puede crear cualquier situación que un vehículo pueda encontrar con el mismo nivel de realismo que si sucediera en el mundo real. En robótica, los WFM pueden generar entornos o mundos virtuales sintéticos para proporcionar un espacio menos costoso, más eficiente y controlado para el aprendizaje de los robots. La startup de IA incorporada Hillbot está impulsando su flujo de datos utilizando Cosmos para generar terabytes de entornos 3D de alta fidelidad. Estos datos generados por IA ayudarán a la empresa a refinar su entrenamiento y operaciones robóticas, lo que permitirá una capacitación robótica más rápida y eficiente y un mejor rendimiento para tareas industriales y domésticas. En ambas industrias, los desarrolladores pueden usar NVIDIA Omniverse y Cosmos como un motor de simulación multiverso, lo que permite que un modelo de política de IA física simule cada