Modelos de última generación entrenados en millones de horas de videos de conducción y robótica para democratizar el desarrollo de IA física, disponibles bajo licencia de modelo abierto.
NVIDIA Cosmos , una plataforma para acelerar el desarrollo de IA física , presenta una familia de modelos de base mundial (redes neuronales que pueden predecir y generar videos conscientes de la física del estado futuro de un entorno virtual) para ayudar a los desarrolladores a construir robots y vehículos autónomos (VA) de próxima generación.
Los modelos de base mundial, o WFM, son tan fundamentales como los grandes modelos de lenguaje. Utilizan datos de entrada, incluidos texto, imágenes, videos y movimiento, para generar y simular mundos virtuales de una manera que modela con precisión las relaciones espaciales de los objetos en la escena y sus interacciones físicas.
Anunciado hoy en CES , NVIDIA está poniendo a disposición la primera ola de Cosmos WFM para simulación basada en física y generación de datos sintéticos, además de tokenizadores de última generación, barandillas, un proceso de curación y procesamiento de datos acelerado y un marco para la personalización y optimización de modelos.
Los investigadores y desarrolladores, independientemente del tamaño de su empresa, pueden utilizar libremente los modelos Cosmos bajo la licencia de modelo abierto permisiva de NVIDIA que permite el uso comercial. Las empresas que crean agentes de IA también pueden utilizar los nuevos modelos abiertos NVIDIA Llama Nemotron y Cosmos Nemotron , presentados en el CES.
La apertura de los modelos de vanguardia de Cosmos permite a los desarrolladores de IA física crear tecnología robótica y de vehículos autónomos y permite a las empresas de todos los tamaños llevar más rápidamente sus aplicaciones de IA física al mercado. Los desarrolladores pueden utilizar los modelos de Cosmos directamente para generar datos sintéticos basados en la física, o pueden aprovechar el marco NVIDIA NeMo para ajustar los modelos con sus propios vídeos para configuraciones de IA física específicas.
Los líderes de IA física, incluidas las empresas de robótica 1X, Agility Robotics y XPENG, y los desarrolladores de AV Uber y Waabi, ya están trabajando con Cosmos para acelerar y mejorar el desarrollo de modelos.
Los desarrolladores pueden obtener una vista previa de los primeros modelos autorregresivos y de difusión de Cosmos en el catálogo de API de NVIDIA , y descargar la familia de modelos y el marco de ajuste fino del catálogo NVIDIA NGC y Hugging Face .
Modelos fundacionales mundiales para la IA física
Los modelos de base del mundo Cosmos son un conjunto de modelos de difusión abierta y de transformadores autorregresivos para la generación de videos que tienen en cuenta la física. Los modelos se han entrenado con 9000 billones de tokens a partir de 20 millones de horas de interacciones humanas, ambientales, industriales, robóticas y datos de conducción del mundo real.
Los modelos se dividen en tres categorías: Nano, para modelos optimizados para inferencia de baja latencia en tiempo real e implementación en el borde; Super, para modelos de referencia de alto rendimiento; y Ultra, para máxima calidad y fidelidad, ideal para destilar modelos personalizados.
Cuando se combinan con las salidas 3D de NVIDIA Omniverse , los modelos de difusión generan datos de video sintéticos controlables y de alta calidad para iniciar el entrenamiento de modelos de percepción robótica y de vehículos autónomos. Los modelos autorregresivos predicen lo que debería suceder a continuación en una secuencia de fotogramas de video en función de los fotogramas de entrada y el texto. Esto permite la predicción del siguiente token en tiempo real, lo que brinda a los modelos de IA físicos la previsión para predecir su próxima mejor acción.
Los desarrolladores pueden utilizar los modelos abiertos de Cosmos para la generación de texto a mundo y de video a mundo. Las versiones de los modelos de difusión y autorregresivo, con entre 4 y 14 mil millones de parámetros cada una, ya están disponibles en el catálogo de NGC y en Hugging Face .
También están disponibles un modelo de muestreo ascendente de 12 mil millones de parámetros para refinar las indicaciones de texto, un decodificador de video de 7 mil millones de parámetros optimizado para la realidad aumentada y modelos de barandilla para garantizar un uso responsable y seguro.
Para demostrar oportunidades de personalización, NVIDIA también está lanzando muestras de modelos optimizados para aplicaciones verticales, como la generación de vistas de múltiples sensores para vehículos autónomos.
Avances en robótica y aplicaciones para vehículos autónomos
Los modelos básicos del mundo Cosmos pueden permitir la generación de datos sintéticos para aumentar los conjuntos de datos de entrenamiento, la simulación para probar y depurar modelos físicos de IA antes de que se implementen en el mundo real y el aprendizaje de refuerzo en entornos virtuales para acelerar el aprendizaje de los agentes de IA .
Los desarrolladores pueden generar cantidades masivas de datos sintéticos controlables basados en la física al condicionar Cosmos con escenas 3D compuestas de NVIDIA Omniverse.
Waabi, una empresa pionera en la IA generativa para el mundo físico, comenzando con los vehículos autónomos, está evaluando el uso de Cosmos para la búsqueda y conservación de datos de vídeo para el desarrollo y simulación de software de vehículos autónomos. Esto acelerará aún más el enfoque líder en la industria de la empresa en materia de seguridad, que se basa en Waabi World, un simulador de IA generativa que puede crear cualquier situación que un vehículo pueda encontrar con el mismo nivel de realismo que si sucediera en el mundo real.
En robótica, los WFM pueden generar entornos o mundos virtuales sintéticos para proporcionar un espacio menos costoso, más eficiente y controlado para el aprendizaje de los robots. La startup de IA incorporada Hillbot está impulsando su flujo de datos utilizando Cosmos para generar terabytes de entornos 3D de alta fidelidad. Estos datos generados por IA ayudarán a la empresa a refinar su entrenamiento y operaciones robóticas, lo que permitirá una capacitación robótica más rápida y eficiente y un mejor rendimiento para tareas industriales y domésticas.
En ambas industrias, los desarrolladores pueden usar NVIDIA Omniverse y Cosmos como un motor de simulación multiverso, lo que permite que un modelo de política de IA física simule cada camino futuro posible que podría tomar para ejecutar una tarea particular, lo que a su vez ayuda al modelo a seleccionar el mejor de estos caminos.
La curación de datos y el entrenamiento de los modelos Cosmos se basaron en miles de GPU NVIDIA a través de NVIDIA DGX Cloud , una plataforma de inteligencia artificial totalmente administrada y de alto rendimiento que proporciona clústeres de computación acelerada en todas las nubes líderes.
Los desarrolladores que adopten Cosmos pueden usar DGX Cloud como una forma sencilla de implementar modelos Cosmos, con soporte adicional disponible a través de la plataforma de software NVIDIA AI Enterprise .
Personalice e implemente con NVIDIA Cosmos
Además de los modelos básicos, la plataforma Cosmos incluye un flujo de procesamiento y curación de datos impulsado por NVIDIA NeMo Curator y optimizado para las GPU de centros de datos de NVIDIA.
Los desarrolladores de robótica y AV recopilan millones o miles de millones de horas de video grabado en el mundo real, lo que da como resultado petabytes de datos. Cosmos permite a los desarrolladores procesar 20 millones de horas de datos en solo 40 días en las GPU NVIDIA Hopper , o tan solo 14 días en las GPU NVIDIA Blackwell . Si se utilizan canales no optimizados que se ejecutan en un sistema de CPU con un consumo de energía equivalente, procesar la misma cantidad de datos llevaría más de tres años.
La plataforma también cuenta con un conjunto de potentes tokenizadores de video e imágenes que pueden convertir videos en tokens con diferentes relaciones de compresión de video para entrenar varios modelos de transformadores .
Los tokenizadores Cosmos ofrecen una compresión total 8 veces mayor que los métodos de última generación y una velocidad de procesamiento 12 veces más rápida, lo que ofrece una calidad superior y costos computacionales reducidos tanto en el entrenamiento como en la inferencia . Los desarrolladores pueden acceder a estos tokenizadores, disponibles bajo la licencia de modelo abierto de NVIDIA, a través de Hugging Face y GitHub .
Los desarrolladores que utilizan Cosmos también pueden aprovechar las capacidades de entrenamiento y ajuste de modelos que ofrece el marco NeMo , un marco acelerado por GPU que permite el entrenamiento de IA de alto rendimiento.
Desarrollo de modelos de IA seguros y responsables
Ahora disponible para desarrolladores bajo el Acuerdo de Licencia de Modelo Abierto de NVIDIA, Cosmos fue desarrollado de acuerdo con los principios de inteligencia artificial confiables de NVIDIA , que incluyen no discriminación, privacidad, seguridad y transparencia.
La plataforma Cosmos incluye Cosmos Guardrails, un conjunto de modelos dedicados que, entre otras funciones, mitiga las entradas de texto e imágenes dañinas durante el preprocesamiento y filtra los videos generados durante el posprocesamiento por razones de seguridad. Los desarrolladores pueden mejorar aún más estas protecciones para sus aplicaciones personalizadas.
Los modelos cosmos en el catálogo API de NVIDIA también cuentan con un sistema de marca de agua incorporado que permite la identificación de secuencias generadas por IA.
NVIDIA Cosmos fue desarrollado por NVIDIA Research . Lea el artículo de investigación “ Cosmos World Foundation Model Platform for Physical AI ” para obtener más detalles sobre el desarrollo de modelos y los puntos de referencia. Las tarjetas de modelos que brindan información adicional están disponibles en Hugging Face .
Obtenga más información sobre los modelos de base mundial en un episodio de AI Podcast que presenta a Ming-Yu Liu, vicepresidente de investigación de NVIDIA.
Comience a utilizar NVIDIA Cosmos y únase a NVIDIA en el CES . Vea la demostración de Cosmos y la presentación de Huang a continuación:
Consulte el aviso sobre la información del producto de software. NVIDIA Blog. M. Y-L. Traducido al español