Los modelos Cosmos estarán disponibles bajo una licencia de modelo abierta para acelerar el trabajo de la comunidad de robótica y vehículos autónomos.
- Nuevos modelos de última generación, tokenizadores de video y un canal de procesamiento de datos acelerado, optimizados para GPU de centros de datos NVIDIA, están diseñados específicamente para desarrollar robots y vehículos autónomos
- La primera ola de modelos abiertos ya está disponible para la comunidad de desarrolladores
- Los líderes mundiales en inteligencia artificial física 1X, Agile Robots, Agility, Figure AI, Foretellix, Uber, Waabi y XPENG entre los primeros en adoptar
CES— NVIDIA anunció hoy NVIDIA Cosmos ™ , una plataforma que comprende modelos de base mundial generativos de última generación , tokenizadores avanzados, barandillas y una línea de procesamiento de video acelerado diseñada para avanzar en el desarrollo de sistemas de IA físicos como vehículos autónomos (AV) y robots .
Los modelos de IA físicos son costosos de desarrollar y requieren grandes cantidades de datos y pruebas del mundo real. Los modelos de base del mundo Cosmos, o WFM, ofrecen a los desarrolladores una manera sencilla de generar cantidades masivas de datos sintéticos fotorrealistas basados en la física para entrenar y evaluar sus modelos existentes. Los desarrolladores también pueden crear modelos personalizados mediante el ajuste fino de los WFM de Cosmos.
Los modelos Cosmos estarán disponibles bajo una licencia de modelo abierta para acelerar el trabajo de la comunidad de robótica y vehículos autónomos. Los desarrolladores pueden obtener una vista previa de los primeros modelos en el catálogo de API de NVIDIA o descargar la familia de modelos y el marco de trabajo de ajuste desde el catálogo NVIDIA NGC™ o Hugging Face .
Las principales empresas de robótica y automoción, incluidas 1X, Agile Robots, Agility, Figure AI, Foretellix, Fourier, Galbot, Hillbot , IntBot , Neura Robotics , Skild AI, Virtual Incision, Waabi y XPENG, junto con el gigante de viajes compartidos Uber, se encuentran entre las primeras en adoptar Cosmos.
“El momento ChatGPT para la robótica está llegando. Al igual que los grandes modelos de lenguaje, los modelos de base mundial son fundamentales para avanzar en el desarrollo de robots y vehículos autónomos, pero no todos los desarrolladores tienen la experiencia y los recursos para entrenar a los suyos”, afirmó Jensen Huang, fundador y director ejecutivo de NVIDIA. “Creamos Cosmos para democratizar la IA física y poner la robótica general al alcance de todos los desarrolladores”.
Modelos de Open World Foundation para acelerar la próxima ola de IA
El conjunto de modelos abiertos de NVIDIA Cosmos significa que los desarrolladores pueden personalizar los WFM con conjuntos de datos, como grabaciones de video de viajes de AV o robots navegando por un almacén, de acuerdo con las necesidades de su aplicación de destino.
Los WFM de Cosmos están diseñados específicamente para la investigación y el desarrollo de IA física, y pueden generar videos basados en la física a partir de una combinación de entradas, como texto, imagen y video, así como datos de movimiento o de sensores de robots. Los modelos están diseñados para interacciones basadas en la física, permanencia de objetos y generación de alta calidad de entornos industriales simulados (como almacenes o fábricas) y de entornos de conducción, incluidas diversas condiciones de la carretera.
En su discurso inaugural en el CES , el fundador y director ejecutivo de NVIDIA, Jensen Huang, mostró formas en las que los desarrolladores de IA física pueden usar los modelos Cosmos, incluso para:
- Búsqueda y comprensión de videos, que permite a los desarrolladores encontrar fácilmente escenarios de entrenamiento específicos, como condiciones de carreteras nevadas o congestión en almacenes, a partir de datos de video.
- Generación de datos sintéticos fotorrealistas basada en la física, utilizando modelos Cosmos para generar videos fotorrealistas a partir de escenarios 3D controlados desarrollados en la plataforma NVIDIA Omniverse ™.
- Desarrollo y evaluación de modelos de IA física, ya sea construyendo un modelo personalizado sobre los modelos base, mejorando los modelos usando Cosmos para el aprendizaje de refuerzo o probando cómo funcionan dado un escenario simulado específico.
- Previsión y simulación de “multiverso”, utilizando Cosmos y Omniverse para generar todos los resultados futuros posibles que un modelo de IA podría tomar para ayudarlo a seleccionar el mejor y más preciso camino.
Herramientas avanzadas de desarrollo de modelos del mundo
La creación de modelos de IA físicos requiere petabytes de datos de video y decenas de miles de horas de computación para procesar, seleccionar y etiquetar esos datos. Para ayudar a ahorrar enormes costos en selección de datos, capacitación y personalización de modelos, Cosmos cuenta con:
- Un flujo de procesamiento de datos acelerado por NVIDIA AI y CUDA®, impulsado por NVIDIA NeMo™ Curator , que permite a los desarrolladores procesar, seleccionar y etiquetar 20 millones de horas de videos en 14 días utilizando la plataforma NVIDIA Blackwell, en lugar de más de tres años utilizando un flujo de trabajo solo de CPU.
- NVIDIA Cosmos Tokenizer , un tokenizador visual de última generación para convertir imágenes y vídeos en tokens. Ofrece una compresión total 8 veces mayor y un procesamiento 12 veces más rápido que los tokenizadores líderes actuales.
- El marco NVIDIA NeMo para entrenamiento, personalización y optimización de modelos altamente eficientes.
Las industrias de IA física más grandes del mundo adoptan Cosmos
Los pioneros de la industria de IA física ya están adoptando las tecnologías de Cosmos.
1X, una empresa de inteligencia artificial y robots humanoides, lanzó el conjunto de datos 1X World Model Challenge utilizando Cosmos Tokenizer. XPENG utilizará Cosmos para acelerar el desarrollo de su robot humanoide. Y Hillbot y Skild AI están utilizando Cosmos para acelerar el desarrollo de sus robots de uso general.
“La escasez y variabilidad de los datos son desafíos clave para el éxito del aprendizaje en entornos robóticos”, afirmó Pras Velagapudi, director de tecnología de Agility. “Las capacidades de conversión de texto, imagen y vídeo de Cosmos nos permiten generar y aumentar escenarios fotorrealistas para una variedad de tareas que podemos usar para entrenar modelos sin necesidad de una captura de datos del mundo real tan costosa”.
Los líderes del transporte también están utilizando Cosmos para desarrollar IA física para vehículos autónomos:
- Waabi, una empresa pionera en inteligencia artificial generativa para el mundo físico comenzando con vehículos autónomos, está evaluando Cosmos en el contexto de la curación de datos para el desarrollo y simulación de software de vehículos autónomos.
- Wayve, que está desarrollando modelos básicos de IA para la conducción autónoma, está evaluando Cosmos como una herramienta para buscar escenarios de conducción extremos y extremos utilizados para la seguridad y la validación.
- El proveedor de la cadena de herramientas AV Foretellix utilizará Cosmos, junto con las API NVIDIA Omniverse Sensor RTX , para evaluar y generar escenarios de pruebas de alta fidelidad y datos de entrenamiento a escala.
- Uber, el gigante mundial de los viajes compartidos, se ha asociado con NVIDIA para acelerar la movilidad autónoma. Los conjuntos de datos de conducción enriquecidos de Uber, combinados con las características de la plataforma Cosmos y NVIDIA DGX Cloud ™, pueden ayudar a los socios de vehículos autónomos a crear modelos de IA más sólidos y de manera aún más eficiente.
“La IA generativa impulsará el futuro de la movilidad, que requiere tanto datos enriquecidos como una computación muy potente”, afirmó Dara Khosrowshahi, director ejecutivo de Uber. “Al trabajar con NVIDIA, confiamos en que podemos ayudar a acelerar el cronograma para soluciones de conducción autónoma seguras y escalables para la industria”.
Desarrollo de una IA abierta, segura y responsable
NVIDIA Cosmos se desarrolló de acuerdo con los principios de IA confiables de NVIDIA , que priorizan la privacidad, la seguridad, la protección, la transparencia y la reducción de sesgos no deseados.
Una IA confiable es esencial para fomentar la innovación dentro de la comunidad de desarrolladores y mantener la confianza de los usuarios. NVIDIA está comprometida con una IA segura y confiable, en línea con los compromisos voluntarios de la Casa Blanca y otras iniciativas globales de seguridad de la IA.
La plataforma abierta Cosmos incluye barandillas diseñadas para mitigar textos e imágenes dañinos, y cuenta con una herramienta para mejorar las indicaciones de texto para lograr mayor precisión. Los videos generados con los modelos autorregresivos y de difusión de Cosmos en el catálogo de API de NVIDIA incluyen marcas de agua invisibles para identificar el contenido generado por IA, lo que ayuda a reducir las posibilidades de desinformación y atribución errónea.
NVIDIA alienta a los desarrolladores a adoptar prácticas de IA confiables y mejorar aún más las soluciones de protección y marcas de agua para sus aplicaciones.
Disponibilidad
Los modelos Cosmos WFM ya están disponibles bajo la licencia de modelo abierto de NVIDIA en Hugging Face y el catálogo NVIDIA NGC. Los modelos Cosmos pronto estarán disponibles como microservicios NVIDIA NIM totalmente optimizados .
Los desarrolladores pueden acceder a NVIDIA NeMo Curator para acelerar el procesamiento de videos y personalizar sus propios modelos de mundo con NVIDIA NeMo . NVIDIA DGX Cloud ofrece una manera rápida y sencilla de implementar estos modelos, con soporte empresarial disponible a través de la plataforma de software NVIDIA AI Enterprise .
NVIDIA también anunció nuevos modelos de lenguaje grande NVIDIA Llama Nemotron y modelos de lenguaje de visión NVIDIA Cosmos Nemotron que los desarrolladores pueden usar para casos de uso de IA empresarial en atención médica, servicios financieros, fabricación y más. NVIDIA News. Traducido al español