Generación de activos 3D escalables y de alta calidad NVIDIA
Papel
La creación de activos 3D de alta calidad es fundamental para industrias como el diseño de videojuegos, la realidad extendida, la producción cinematográfica y la simulación, donde el contenido 3D debe cumplir con estándares de producción estrictos, como estructuras de malla precisas, texturas de alta resolución y mapas de materiales. Cumplir con estos estándares requiere mucho tiempo y conocimientos especializados, una demanda que ha impulsado la investigación sobre la generación de activos 3D impulsada por IA. Sin embargo, la disponibilidad limitada de activos 3D para el entrenamiento de modelos plantea desafíos, lo que resalta la necesidad de soluciones escalables y eficientes.
Edify 3D aborda estos desafíos generando activos 3D detallados y listos para producción en dos minutos, lo que produce mapas UV organizados, texturas 4K y materiales PBR. Mediante el uso de modelos de difusión de múltiples vistas y reconstrucción basada en Transformer, Edify 3D puede sintetizar activos 3D de alta calidad a partir de indicaciones de texto o imágenes de referencia, logrando una eficiencia y escalabilidad superiores.
Resultados
Edify 3D genera mallas con geometría detallada, texturas nítidas y colores de albedo claros que representan el color base de la superficie. Visualizamos las representaciones PBR, los colores de albedo base y las normales de la superficie.
Una mochila completa con espacio para colgar herramientas.
Un fonógrafo de madera y oro.
Un brazo robótico de fábrica de color naranja.
Una armadura de caballero sobre un soporte.
Una silla de piloto de nave espacial.
Bonita casa isométrica, estilo adobe, color bronce del desierto.
Topologías de malla cuádruple
Los activos generados también son mallas cuádruples con topologías adaptativas y organizadas, lo que permite una fácil manipulación para edición y renderizado, y se integra perfectamente en flujos de trabajo 3D con alta fidelidad visual y flexibilidad.
(El visualizador de malla 3D puede tardar unos instantes en cargarse).
Aplicación: Generación de escenas 3D
Demostramos una aplicación de Edify 3D para generar escenas 3D complejas a partir de indicaciones de texto simples. Aprovechando Edify 3D como una API de generación de activos, nuestro sistema utiliza LLM para definir diseños de escenas, posiciones de objetos y tamaños para composiciones coherentes y realistas. Esto permite crear escenas 3D fácilmente editables que se adaptan a aplicaciones de diseño artístico, modelado 3D y simulaciones de IA incorporadas.https://www.youtube.com/embed/AJWTUvXA0Wc?si=sIFLq7n87dr6wMbV
Tubería
A partir de una descripción de texto, un modelo de difusión de múltiples vistas genera imágenes RGB del objeto especificado desde múltiples puntos de vista. Estas imágenes sirven como entrada para una ControlNet de múltiples vistas, que sintetiza las normales de superficie correspondientes. Luego, un modelo de reconstrucción combina estas imágenes RGB y normales para predecir una representación neuronal en 3D como tokens latentes, seguido de la extracción de isosuperficies y el posprocesamiento de la malla para crear la geometría del objeto. Para mejorar la calidad de la textura, un condicionamiento de ControlNet de escalado ascendente en rasterizaciones de malla produce imágenes RGB de múltiples vistas de alta resolución, que luego se retroproyectan en el mapa de textura.
Modelo de difusión de múltiples vistas
El proceso de generación de imágenes multivista adapta los modelos de difusión de texto a imagen a modelos de difusión multivista que reconocen la pose, al condicionarlos a las poses de la cámara. Dado un mensaje de texto y la orientación de la cámara, estos modelos sintetizan la apariencia de un objeto desde múltiples perspectivas. Las variantes incluyen un modelo base que genera la apariencia RGB, un modelo ControlNet que produce normales de superficie basados en la síntesis RGB y el texto, y un ControlNet de escalado para una salida de alta resolución condicionada a la textura y las normales de superficie. Basado en el modelo Edify Image, las mejoras a la capa de autoatención permiten la atención entre vistas, mientras que las poses de la cámara codificadas a través de un MLP liviano se integran como incrustaciones de tiempo.
Nuestro modelo de difusión de múltiples vistas se escala de manera efectiva, y el entrenamiento en una mayor cantidad de puntos de vista produce imágenes más naturales y consistentes. Durante la inferencia, el modelo puede tomar muestras de una cantidad arbitraria de puntos de vista mientras preserva la consistencia de múltiples vistas, lo que facilita una cobertura integral de objetos y mejora la calidad de las reconstrucciones 3D posteriores.
Modelo de reconstrucción
La extracción de la estructura 3D de las imágenes, conocida comúnmente como fotogrametría, es fundamental para muchas tareas de reconstrucción 3D. Nuestro enfoque utiliza un modelo basado en Transformer para generar geometría de malla 3D, textura y mapas de materiales a partir de imágenes de múltiples vistas, con una fuerte generalización a objetos invisibles, incluidas las salidas de difusión 2D sintetizadas. El modelo condiciona las imágenes RGB y normales para predecir representaciones de triplano latente, lo que permite la representación de volumen basada en SDF de las propiedades PBR. El SDF neuronal se convierte en una malla 3D a través de la extracción de isosuperficies, con propiedades PBR incorporadas en mapas de textura y materiales. El posprocesamiento incluye retopología de malla cuádruple, mapeo UV y propiedades PBR incorporadas, lo que da como resultado un activo editable y listo para el diseño, adecuado para aplicaciones artísticas.
Nuestro modelo de reconstrucción demuestra una escalabilidad eficaz, ya que el rendimiento mejora a medida que aumenta la cantidad de puntos de vista de entrada. La calidad de la reconstrucción también se beneficia de una mayor cantidad de puntos de vista de entrenamiento, lo que mejora aún más la precisión. Además, la calidad de la reconstrucción escala con los tamaños de tokens de tres planos utilizando el mismo modelo, lo que demuestra su adaptabilidad a los recursos computacionales disponibles.
Pérdida de albedo por LPIPS
Vistas de validación | ||||
---|---|---|---|---|
Vistas de entrada | 4 | 4 (diagrama) | 8 | 16 |
4 | 0,0732 | 0,0791 | 0,0762 | 0,0768 |
4 (diagrama) | 0,0802 | 0,0756 | 0,0779 | 0,0783 |
8 | 0,0691 | 0,0698 | 0,0695 | 0,0699 |
16 | 0,0687 | 0,0689 | 0,0688 | 0,0687 |
Pérdida de material L2
Vistas de validación | ||||
---|---|---|---|---|
Vistas de entrada | 4 | 4 (diagrama) | 8 | 16 |
4 | 0,0015 | 0,0020 | 0,0017 | 0,0018 |
4 (diagrama) | 0,0024 | 0,0019 | 0,0022 | 0,0022 |
8 | 0,0013 | 0,0012 | 0,0013 | 0,0013 |
16 | 0,0012 | 0,0013 | 0,0013 | 0,0013 |
Pérdida de profundidad L2
Vistas de validación | ||||
---|---|---|---|---|
Vistas de entrada | 4 | 4 (diagrama) | 8 | 16 |
4 | 0,0689 | 0,0751 | 0,0720 | 0,0722 |
4 (diagrama) | 0,0704 | 0,0683 | 0,0694 | 0,0696 |
8 | 0,0626 | 0,0641 | 0,0633 | 0,0633 |
16 | 0,0613 | 0,0626 | 0,0619 | 0,0616 |
NVIDIA News, NVIDIA et al. Traducido al español