Los investigadores fusionan lo mejor de dos métodos populares para crear un generador de imágenes que utiliza menos energía y puede ejecutarse localmente en una computadora portátil o teléfono inteligente.
La capacidad de generar imágenes de alta calidad rápidamente es crucial para producir entornos simulados realistas que se pueden usar para entrenar autos sin conductor para evitar peligros impredecibles, haciéndolos más seguros en calles reales.
Pero las técnicas de inteligencia artificial generativa que se utilizan cada vez más para producir tales imágenes tienen inconvenientes. Un tipo popular de modelo, llamado modelo de difusión, puede crear imágenes increíblemente realistas, pero es demasiado lento y computacionalmente intensivo para muchas aplicaciones. Por otro lado, los modelos autorregresivos que alimentan LLM como ChatGPT son mucho más rápidos, pero producen imágenes de peor calidad que a menudo están plagadas de errores.
Investigadores del MIT y NVIDIA desarrollaron un nuevo enfoque que reúne lo mejor de ambos métodos. Su herramienta híbrida de generación de imágenes utiliza un modelo autorregresivo para capturar rápidamente el panorama general y luego un pequeño modelo de difusión para refinar los detalles de la imagen.
Su herramienta, conocida como HART (abreviatura de transformador autorregresivo híbrido), puede generar imágenes que coinciden o superan la calidad de los modelos de difusión de última generación, pero lo hacen aproximadamente nueve veces más rápido.
El proceso de generación consume menos recursos computacionales que los modelos de difusión típicos, lo que permite que HART se ejecute localmente en una computadora portátil o teléfono inteligente comercial. Un usuario solo necesita ingresar un mensaje de lenguaje natural en la interfaz HART para generar una imagen.
HART podría tener una amplia gama de aplicaciones, como ayudar a los investigadores a entrenar robots para completar tareas complejas del mundo real y ayudar a los diseñadores a producir escenas sorprendentes para videojuegos.
“Si estás pintando un paisaje, y solo pintas todo el lienzo una vez, puede que no se vea muy bien. Pero si pinta el cuadro grande y luego refina la imagen con pinceladas más pequeñas, su pintura podría verse mucho mejor. Esa es la idea básica con HART,” dice Haotian Tang SM ’22, PhD ’25, co-autor principal de un nuevo documento sobre HART.
A él se unen el co-autor principal Yecheng Wu, un estudiante de pregrado en la Universidad de Tsinghua; el autor principal Song Han, profesor asociado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT (EECS), miembro del MIT-IBM Watson AI Lab y un distinguido científico de NVIDIA; así como otros en el MIT, la Universidad de Tsinghua y NVIDIA. La investigación se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje.
Lo mejor de ambos mundos
Se sabe que los modelos de difusión populares, como Stable Diffusion y DALL-E, producen imágenes muy detalladas. Estos modelos generan imágenes a través de un proceso iterativo donde predicen cierta cantidad de ruido aleatorio en cada píxel, restan el ruido, luego repiten el proceso de predicción y “des-noising” varias veces hasta que generan una nueva imagen que está completamente libre de ruido.
Debido a que el modelo de difusión elimina el ruido de todos los píxeles de una imagen en cada paso, y puede haber 30 o más pasos, el proceso es lento y computacionalmente costoso. Pero debido a que el modelo tiene múltiples posibilidades de corregir los detalles, se equivocó, las imágenes son de alta calidad.
Los modelos autorregresivos, comúnmente utilizados para predecir texto, pueden generar imágenes al predecir parches de una imagen secuencialmente, unos pocos píxeles a la vez. Pueden volver atrás y corregir sus errores, pero el proceso de predicción secuencial es mucho más rápido que la difusión.
Estos modelos utilizan representaciones conocidas como tokens para hacer predicciones. Un modelo autorregresivo utiliza un autocodificador para comprimir píxeles de imagen sin procesar en tokens discretos, así como reconstruir la imagen a partir de tokens predichos. Si bien esto aumenta la velocidad de modelización, la pérdida de información que ocurre durante la compresión causa errores cuando el modelo genera una nueva imagen.
Con HART, los investigadores desarrollaron un enfoque híbrido que utiliza un modelo autorregresivo para predecir tokens de imágenes comprimidas y discretas, luego un pequeño modelo de difusión para predecir tokens residuales. Los tokens residuales compensan la pérdida de información de las modelizaciones al capturar detalles omitidos por tokens discretos.
“Podemos lograr un gran impulso en términos de calidad de reconstrucción. Nuestros tokens residuales aprenden detalles de alta frecuencia, como los bordes de un objeto o el cabello, los ojos o la boca de una persona. Estos son lugares donde los tokens discretos pueden cometer errores,” dice Tang.
Debido a que el modelo de difusión solo predice los detalles restantes después de que el modelo autorregresivo haya hecho su trabajo, puede realizar la tarea en ocho pasos, en lugar de los 30 o más habituales que requiere un modelo de difusión estándar para generar una imagen completa. Esta sobrecarga mínima del modelo de difusión adicional permite a HART conservar la ventaja de velocidad del modelo autorregresivo al tiempo que mejora significativamente su capacidad para generar detalles de imagen intrincados.
“El modelo de difusión tiene un trabajo más fácil de hacer, lo que lleva a una mayor eficiencia,”, agrega.
Superando a los modelos más grandes
Durante el desarrollo de HART, los investigadores encontraron desafíos en la integración efectiva del modelo de difusión para mejorar el modelo autorregresivo. Encontraron que la incorporación del modelo de difusión en las primeras etapas del proceso autorregresivo resultó en una acumulación de errores. En cambio, su diseño final de aplicar el modelo de difusión para predecir solo tokens residuales como el paso final mejoró significativamente la calidad de generación.
Su método, que utiliza una combinación de un modelo de transformador autorregresivo con 700 millones de parámetros y un modelo de difusión ligero con 37 millones de parámetros, puede generar imágenes de la misma calidad que las creadas por un modelo de difusión con 2 mil millones de parámetros, pero lo hace aproximadamente nueve veces más rápido. Utiliza aproximadamente un 31 por ciento menos de computación que los modelos de última generación.
Además, debido a que HART utiliza un modelo autorregresivo para hacer la mayor parte del trabajo — el mismo tipo de modelo que alimenta LLMs — es más compatible para la integración con la nueva clase de modelos generativos de lenguaje de visión unificado. En el futuro, uno podría interactuar con un modelo generativo unificado de lenguaje visual, tal vez pidiéndole que muestre los pasos intermedios necesarios para ensamblar un mueble.
“LLM son una buena interfaz para todo tipo de modelos, como modelos multimodales y modelos que pueden razonar. Esta es una manera de empujar la inteligencia a una nueva frontera. Un modelo eficiente de generación de imágenes desbloquearía muchas posibilidades,”, dice.
En el futuro, los investigadores quieren seguir este camino y construir modelos de lenguaje de visión sobre la arquitectura HART. Dado que HART es escalable y generalizable a múltiples modalidades, también quieren aplicarlo para tareas de generación de video y predicción de audio.
Esta investigación fue financiada, en parte, por el MIT-IBM Watson AI Lab, el MIT y Amazon Science Hub, el MIT AI Hardware Program y los Estados Unidos. Fundación Nacional de Ciencia. La infraestructura de GPU para entrenar este modelo fue donada por NVIDIA. MIT News. Traducido al español