El Portal de las Tecnologías para la Innovación

Una nueva forma de crear formas 3D realistas utilizando IA generativa

Los investigadores proponen una solución sencilla a una técnica existente que podría ayudar a artistas, diseñadores e ingenieros a crear mejores modelos 3D.

Crear modelos 3D realistas para aplicaciones como realidad virtual, realización cinematográfica y diseño de ingeniería puede ser un proceso engorroso que requiere mucho ensayo y error manual.

Si bien los modelos de inteligencia artificial generativa para imágenes pueden agilizar los procesos artísticos al permitir que los creadores produzcan imágenes 2D realistas a partir de indicaciones de texto, estos modelos no están diseñados para generar formas 3D. Para salvar esa brecha, una técnica desarrollada recientemente llamada Score Distillation aprovecha los modelos de generación de imágenes 2D para crear formas 3D, pero el resultado suele ser borroso o caricaturesco.

Los investigadores del MIT exploraron las relaciones y diferencias entre los algoritmos utilizados para generar imágenes 2D y formas 3D, identificando la causa principal de los modelos 3D de menor calidad. A partir de ahí, crearon una solución sencilla para Score Distillation, que permite la generación de formas 3D nítidas y de alta calidad que se acercan en calidad a las mejores imágenes 2D generadas por modelos.
 

Una abeja robótica giratoria en color, como modelo 3D y silueta.
    
Fresa giratoria
Estos ejemplos muestran dos objetos giratorios en 3D diferentes: una abeja robótica y una fresa. Los investigadores utilizaron una IA generativa basada en texto y su nueva técnica para crear los objetos en 3D.

Imagen: cortesía de los investigadores; MIT News


Otros métodos intentan solucionar este problema reentrenando o ajustando el modelo de IA generativa, lo que puede resultar costoso y llevar mucho tiempo.

En cambio, la técnica de los investigadores del MIT logra una calidad de forma 3D igual o mejor que la de estos métodos sin necesidad de entrenamiento adicional ni posprocesamiento complejo.

Además, al identificar la causa del problema, los investigadores han mejorado la comprensión matemática de Score Distillation y técnicas relacionadas, lo que permite realizar trabajos futuros para mejorar aún más el rendimiento.

“Ahora sabemos hacia dónde debemos dirigirnos, lo que nos permite encontrar soluciones más eficientes, más rápidas y de mayor calidad”, afirma Artem Lukoianov, estudiante de posgrado en ingeniería eléctrica y ciencias de la computación (EECS) y autor principal de un artículo sobre esta técnica. “A largo plazo, nuestro trabajo puede ayudar a facilitar el proceso para ser un copiloto para los diseñadores, lo que facilitará la creación de formas 3D más realistas”.

Los coautores de Lukoianov son Haitz Sáez de Ocáriz Borde, estudiante de posgrado en la Universidad de Oxford; Kristjan Greenewald, científico investigador en el Laboratorio de IA Watson del MIT-IBM; Vitor Campagnolo Guizilini, científico en el Instituto de Investigación Toyota; Timur Bagautdinov, científico investigador en Meta; y los autores principales Vincent Sitzmann, profesor asistente de EECS en el MIT que dirige el Grupo de Representación de Escenas en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y Justin Solomon, profesor asociado de EECS y líder del Grupo de Procesamiento de Datos Geométricos del CSAIL. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.

De imágenes 2D a formas 3D

Los modelos de difusión, como DALL-E, son un tipo de modelo de IA generativo que puede producir imágenes realistas a partir de ruido aleatorio. Para entrenar estos modelos, los investigadores añaden ruido a las imágenes y luego enseñan al modelo a revertir el proceso y eliminar el ruido. Los modelos utilizan este proceso aprendido de «eliminación de ruido» para crear imágenes basadas en las indicaciones de texto del usuario.

Sin embargo, los modelos de difusión no son capaces de generar directamente formas 3D realistas porque no hay suficientes datos 3D para entrenarlos. Para solucionar este problema, los investigadores desarrollaron en 2022 una técnica llamada  Score Distillation Sampling (SDS) que utiliza un modelo de difusión entrenado previamente para combinar imágenes 2D en una representación 3D.

La técnica consiste en comenzar con una representación 3D aleatoria, generar una vista 2D de un objeto deseado desde un ángulo de cámara aleatorio, agregar ruido a esa imagen, eliminar el ruido con un modelo de difusión y luego optimizar la representación 3D aleatoria para que coincida con la imagen eliminada. Estos pasos se repiten hasta que se genera el objeto 3D deseado.

Sin embargo, las formas 3D producidas de esta manera tienden a verse borrosas o sobresaturadas.

“Esto ha sido un obstáculo durante un tiempo. Sabemos que el modelo subyacente es capaz de hacerlo mejor, pero la gente no sabía por qué sucede esto con las formas 3D”, dice Lukoianov.

Los investigadores del MIT exploraron los pasos del SDS e identificaron una discrepancia entre una fórmula que forma parte clave del proceso y su contraparte en los modelos de difusión 2D. La fórmula le indica al modelo cómo actualizar la representación aleatoria agregando y eliminando ruido, un paso a la vez, para que se parezca más a la imagen deseada.

Como parte de esta fórmula implica una ecuación demasiado compleja para resolverla de manera eficiente, SDS la reemplaza con ruido muestreado aleatoriamente en cada paso. Los investigadores del MIT descubrieron que este ruido genera formas tridimensionales borrosas o caricaturescas.

Una respuesta aproximada

En lugar de intentar resolver esta complicada fórmula con precisión, los investigadores probaron técnicas de aproximación hasta que identificaron la mejor. En lugar de tomar muestras aleatorias del término de ruido, su técnica de aproximación infiere el término faltante a partir de la representación actual de la forma 3D.

“Al hacer esto, como predice el análisis del artículo, se generan formas 3D que parecen nítidas y realistas”, afirma.

Además, los investigadores aumentaron la resolución de la representación de la imagen y ajustaron algunos parámetros del modelo para mejorar aún más la calidad de la forma 3D.

Al final, pudieron utilizar un modelo de difusión de imágenes listo para usar y previamente entrenado para crear formas 3D suaves y de aspecto realista sin necesidad de un costoso reentrenamiento. Los objetos 3D son igualmente nítidos que los producidos con otros métodos que dependen de soluciones ad hoc.

“Intentamos experimentar a ciegas con distintos parámetros, y a veces funciona y a veces no, pero no sabemos por qué. Sabemos que esa es la ecuación que tenemos que resolver. Ahora, esto nos permite pensar en formas más eficientes de resolverla”, afirma.

Como su método se basa en un modelo de difusión previamente entrenado, hereda los sesgos y las deficiencias de ese modelo, lo que lo hace propenso a alucinaciones y otros fallos. Mejorar el modelo de difusión subyacente mejoraría su proceso.

Además de estudiar la fórmula para ver cómo podrían resolverla de forma más efectiva, los investigadores están interesados ​​en explorar cómo estos conocimientos podrían mejorar las técnicas de edición de imágenes.

El trabajo de Artem Lukoianov está financiado por el Centro de Investigación Conjunta Toyota-CSAIL. La investigación de Vincent Sitzmann cuenta con el apoyo de la Fundación Nacional de Ciencias de Estados Unidos, la Agencia de Ciencia y Tecnología de Defensa de Singapur, el Departamento del Interior/Centro de Negocios del Interior e IBM. La investigación de Justin Solomon está financiada, en parte, por la Oficina de Investigación del Ejército de Estados Unidos, la Fundación Nacional de Ciencias, el programa Future of Data de CSAIL, el Laboratorio de IA Watson del MIT-IBM, Wistron Corporation y el Centro de Investigación Conjunta Toyota-CSAIL. MIT News. Traduciodo al español

Artículos relacionados

Scroll al inicio