El Portal de las Tecnologías para la Innovación

Edificar 3D

Generación de activos 3D escalables y de alta calidad NVIDIA

Papel

https://youtube.com/watch?v=ROqB8xhKZ6U%3Fsi%3DEQTVeM7qi8CUkieT

La creación de activos 3D de alta calidad es fundamental para industrias como el diseño de videojuegos, la realidad extendida, la producción cinematográfica y la simulación, donde el contenido 3D debe cumplir con estándares de producción estrictos, como estructuras de malla precisas, texturas de alta resolución y mapas de materiales. Cumplir con estos estándares requiere mucho tiempo y conocimientos especializados, una demanda que ha impulsado la investigación sobre la generación de activos 3D impulsada por IA. Sin embargo, la disponibilidad limitada de activos 3D para el entrenamiento de modelos plantea desafíos, lo que resalta la necesidad de soluciones escalables y eficientes.

Edify 3D aborda estos desafíos generando activos 3D detallados y listos para producción en dos minutos, lo que produce mapas UV organizados, texturas 4K y materiales PBR. Mediante el uso de modelos de difusión de múltiples vistas y reconstrucción basada en Transformer, Edify 3D puede sintetizar activos 3D de alta calidad a partir de indicaciones de texto o imágenes de referencia, logrando una eficiencia y escalabilidad superiores.


Resultados

Edify 3D genera mallas con geometría detallada, texturas nítidas y colores de albedo claros que representan el color base de la superficie. Visualizamos las representaciones PBR, los colores de albedo base y las normales de la superficie.

Una mochila completa con espacio para colgar herramientas.

Un fonógrafo de madera y oro.

Un brazo robótico de fábrica de color naranja.

Una armadura de caballero sobre un soporte.

Una silla de piloto de nave espacial.

Bonita casa isométrica, estilo adobe, color bronce del desierto.

Topologías de malla cuádruple

Los activos generados también son mallas cuádruples con topologías adaptativas y organizadas, lo que permite una fácil manipulación para edición y renderizado, y se integra perfectamente en flujos de trabajo 3D con alta fidelidad visual y flexibilidad.

(El visualizador de malla 3D puede tardar unos instantes en cargarse).

Aplicación: Generación de escenas 3D

Demostramos una aplicación de Edify 3D para generar escenas 3D complejas a partir de indicaciones de texto simples. Aprovechando Edify 3D como una API de generación de activos, nuestro sistema utiliza LLM para definir diseños de escenas, posiciones de objetos y tamaños para composiciones coherentes y realistas. Esto permite crear escenas 3D fácilmente editables que se adaptan a aplicaciones de diseño artístico, modelado 3D y simulaciones de IA incorporadas.https://www.youtube.com/embed/AJWTUvXA0Wc?si=sIFLq7n87dr6wMbV


Tubería

A partir de una descripción de texto, un modelo de difusión de múltiples vistas genera imágenes RGB del objeto especificado desde múltiples puntos de vista. Estas imágenes sirven como entrada para una ControlNet de múltiples vistas, que sintetiza las normales de superficie correspondientes. Luego, un modelo de reconstrucción combina estas imágenes RGB y normales para predecir una representación neuronal en 3D como tokens latentes, seguido de la extracción de isosuperficies y el posprocesamiento de la malla para crear la geometría del objeto. Para mejorar la calidad de la textura, un condicionamiento de ControlNet de escalado ascendente en rasterizaciones de malla produce imágenes RGB de múltiples vistas de alta resolución, que luego se retroproyectan en el mapa de textura.

Diagrama 1

Modelo de difusión de múltiples vistas

El proceso de generación de imágenes multivista adapta los modelos de difusión de texto a imagen a modelos de difusión multivista que reconocen la pose, al condicionarlos a las poses de la cámara. Dado un mensaje de texto y la orientación de la cámara, estos modelos sintetizan la apariencia de un objeto desde múltiples perspectivas. Las variantes incluyen un modelo base que genera la apariencia RGB, un modelo ControlNet que produce normales de superficie basados ​​en la síntesis RGB y el texto, y un ControlNet de escalado para una salida de alta resolución condicionada a la textura y las normales de superficie. Basado en el modelo Edify Image, las mejoras a la capa de autoatención permiten la atención entre vistas, mientras que las poses de la cámara codificadas a través de un MLP liviano se integran como incrustaciones de tiempo.

modelo1a

Nuestro modelo de difusión de múltiples vistas se escala de manera efectiva, y el entrenamiento en una mayor cantidad de puntos de vista produce imágenes más naturales y consistentes. Durante la inferencia, el modelo puede tomar muestras de una cantidad arbitraria de puntos de vista mientras preserva la consistencia de múltiples vistas, lo que facilita una cobertura integral de objetos y mejora la calidad de las reconstrucciones 3D posteriores.

Imagen 3
Imagen 4

Modelo de reconstrucción

La extracción de la estructura 3D de las imágenes, conocida comúnmente como fotogrametría, es fundamental para muchas tareas de reconstrucción 3D. Nuestro enfoque utiliza un modelo basado en Transformer para generar geometría de malla 3D, textura y mapas de materiales a partir de imágenes de múltiples vistas, con una fuerte generalización a objetos invisibles, incluidas las salidas de difusión 2D sintetizadas. El modelo condiciona las imágenes RGB y normales para predecir representaciones de triplano latente, lo que permite la representación de volumen basada en SDF de las propiedades PBR. El SDF neuronal se convierte en una malla 3D a través de la extracción de isosuperficies, con propiedades PBR incorporadas en mapas de textura y materiales. El posprocesamiento incluye retopología de malla cuádruple, mapeo UV y propiedades PBR incorporadas, lo que da como resultado un activo editable y listo para el diseño, adecuado para aplicaciones artísticas.

Nuestro modelo de reconstrucción demuestra una escalabilidad eficaz, ya que el rendimiento mejora a medida que aumenta la cantidad de puntos de vista de entrada. La calidad de la reconstrucción también se beneficia de una mayor cantidad de puntos de vista de entrenamiento, lo que mejora aún más la precisión. Además, la calidad de la reconstrucción escala con los tamaños de tokens de tres planos utilizando el mismo modelo, lo que demuestra su adaptabilidad a los recursos computacionales disponibles.

Pérdida de albedo por LPIPS

Vistas de validación
Vistas de entrada44 (diagrama)816
40,07320,07910,07620,0768
4 (diagrama)0,08020,07560,07790,0783
80,06910,06980,06950,0699
160,06870,06890,06880,0687

Pérdida de material L2

Vistas de validación
Vistas de entrada44 (diagrama)816
40,00150,00200,00170,0018
4 (diagrama)0,00240,00190,00220,0022
80,00130,00120,00130,0013
160,00120,00130,00130,0013

Pérdida de profundidad L2

Vistas de validación
Vistas de entrada44 (diagrama)816
40,06890,07510,07200,0722
4 (diagrama)0,07040,06830,06940,0696
80,06260,06410,06330,0633
160,06130,06260,06190,0616

NVIDIA News, NVIDIA et al. Traducido al español

Artículos relacionados

Scroll al inicio