El Portal de las Tecnologías para la Innovación

Simplificación, estabilización y escalado de modelos de consistencia en tiempo continuo

Modelos de consistencia en el tiempo continuo con calidad de muestra comparable a los modelos de difusión líderes en solo dos pasos de muestreo.

Los modelos de difusión han revolucionado la IA generativa, lo que ha permitido avances notables en la generación de imágenes realistas, modelos 3D, audio y vídeo. Sin embargo, a pesar de sus impresionantes resultados, estos modelos son lentos en el muestreo. 

Estamos compartiendo un nuevo enfoque, llamado sCM, que simplifica la formulación teórica de modelos de consistencia de tiempo continuo, lo que nos permite estabilizar y escalar su entrenamiento para conjuntos de datos de gran escala. Este enfoque logra una calidad de muestra comparable a la de los principales modelos de difusión, mientras que utiliza solo dos pasos de muestreo. También estamos compartiendo nuestro artículo de investigación para apoyar un mayor progreso en este campo.

Introducción

Los métodos actuales de muestreo de los modelos de difusión suelen requerir decenas o cientos de pasos secuenciales para generar una sola muestra, lo que limita su eficiencia y escalabilidad para aplicaciones en tiempo real. Se han desarrollado diversas técnicas de destilación para acelerar el muestreo, pero suelen tener limitaciones, como altos costos computacionales, capacitación compleja y calidad reducida de la muestra.

Ampliando nuestra investigación previa sobre modelos de consistencia 1 , 2 , hemos simplificado la formulación y estabilizado aún más el proceso de entrenamiento de modelos de consistencia de tiempo continuo. Nuestro nuevo enfoque, llamado sCM, nos ha permitido escalar el entrenamiento de modelos de consistencia de tiempo continuo a una cantidad sin precedentes de 1.5 mil millones de parámetros en ImageNet a una resolución de 512×512. Los sCM pueden generar muestras con una calidad comparable a los modelos de difusión utilizando solo dos pasos de muestreo, lo que resulta en una aceleración del reloj de pared de ~50x. Por ejemplo, nuestro modelo más grande, con 1.5 mil millones de parámetros, genera una sola muestra en solo 0,11 segundos en una sola GPU A100 sin ninguna optimización de inferencia. Se puede lograr fácilmente una aceleración adicional a través de la optimización personalizada del sistema, lo que abre posibilidades para la generación en tiempo real en varios dominios, como imagen, audio y video.

Para una evaluación rigurosa, comparamos el sCM con otros modelos generativos de última generación comparando tanto la calidad de la muestra, utilizando las puntuaciones estándar de distancia de inicio de Fréchet (FID) (donde cuanto menor, mejor), como el cálculo de muestreo efectivo, que estima el costo computacional total para generar cada muestra. Como se muestra a continuación, nuestro sCM de 2 pasos produce muestras con una calidad comparable a los mejores métodos anteriores mientras utiliza menos del 10 % del cálculo de muestreo efectivo, lo que acelera significativamente el proceso de muestreo.

Diagrama de dispersión que compara la distancia de inicio de Frechet (cuanto menor, mejor) y el cálculo de muestreo efectivo para varios modelos. Entre los modelos más destacados se incluyen sCM (nuestro), BigGAN, StyleGAN-XL, ADM-G, U-ViT-H/4, MaskGIT y DiT-XL/2.

Cómo funciona

Los modelos de consistencia ofrecen una alternativa más rápida a los modelos de difusión tradicionales para generar muestras de alta calidad. A diferencia de los modelos de difusión, que generan muestras gradualmente a través de una gran cantidad de pasos de eliminación de ruido, los modelos de consistencia tienen como objetivo convertir el ruido directamente en muestras libres de ruido en un solo paso. Esta diferencia se visualiza mediante rutas en el diagrama: la línea azul representa el proceso de muestreo gradual de un modelo de difusión, mientras que la curva roja ilustra el muestreo más directo y acelerado de un modelo de consistencia. Mediante técnicas como el entrenamiento de consistencia o la destilación de consistencia 1 , 2 , los modelos de consistencia se pueden entrenar para generar muestras de alta calidad con significativamente menos pasos, lo que los hace atractivos para aplicaciones prácticas que requieren una generación rápida.

Diagrama que ilustra trayectorias de EDO entre datos y ruido, mostrando puntos conectados por trayectorias curvas y rectas etiquetadas 𝑥 0 x 0 ​ , 𝑥 𝜃 x θ ​ , 𝑥 𝑡 − Δ 𝑡 xt−Δt ​ y 𝑥 𝑡 xt ​ , con notaciones matemáticas.

Ilustración sobre el muestreo del modelo de difusión (rojo) y el muestreo del modelo de consistencia (azul).

Hemos entrenado un modelo de consistencia de tiempo continuo con 1.500 millones de parámetros en ImageNet 512×512 y proporcionamos muestras de dos pasos de este modelo para demostrar sus capacidades.

Muestras seleccionadas de 2 pasos de un modelo de consistencia de tiempo continuo entrenado en ImageNet 512×512.

Primer plano de la cabeza de una serpiente con una apariencia de escamas estampadas y texturizadas.
Foto de cabeza de un cacatúa blanco con pico negro y cresta amarilla.
Medusas flotando bajo el agua con tentáculos largos y delgados y un cuerpo circular transparente.
Vista submarina de una anémona de mar blanca y brillante con tentáculos extendidos.
Una caracola sobre arena mojada con un patrón de rayas.
Un caracol sobre una hoja verde, con un caparazón en forma de espiral.
Un cangrejo ermitaño con cuerpo rojo, emergiendo de una concha sobre arena mojada.
Un lobo blanco descansando sobre una roca, luciendo alerta.
Primer plano de la cara de un leopardo de las nieves con pelaje manchado.
Primer plano de la cara de un león con una melena espesa.
Un escarabajo negro arrastrándose por el suelo.
Un escarabajo amarillo y negro con antenas largas en una hoja verde.
Una mariposa monarca con alas de color naranja brillante y negro en una planta verde.
Un pez león con aletas largas y puntiagudas nadando cerca de un arrecife de coral.
Un espejo lateral de un automóvil que refleja una vista del campo con colinas y árboles.
Una gran y antigua estructura de piedra compuesta de rocas apiladas en un paisaje herboso.
Una tetera de cerámica y dos tazas pequeñas sobre una mesa de madera.
Primer plano de una hamburguesa con queso derretido y un pan suave.
Una vista panorámica de montañas cubiertas de nieve con exuberantes prados verdes y pinos.
Vista aérea de una bahía costera con agua turquesa rodeada de acantilados.
Un río turquesa de rápido caudal que atraviesa colinas rocosas con una densa vegetación verde.

Nuestro modelo de difusión de los maestros destila conocimiento de un modelo de difusión entrenado previamente. Un hallazgo clave es que los modelos de difusión de los maestros mejoran proporcionalmente con el modelo de difusión de los maestros a medida que ambos aumentan su escala. Específicamente, la diferencia relativa en la calidad de la muestra, medida por la relación de las puntuaciones FID, permanece constante en varios órdenes de magnitud en los tamaños de los modelos, lo que hace que la diferencia absoluta en la calidad de la muestra disminuya a escala. Además, aumentar los pasos de muestreo para los modelos de difusión de los maestros reduce aún más la brecha de calidad. Cabe destacar que las muestras de dos pasos de los modelos de difusión de los maestros ya son comparables (con una diferencia relativa de menos del 10 % en las puntuaciones FID) a las muestras del modelo de difusión de los maestros, que requiere cientos de pasos para generarse.

Escalamiento FID

Gráfico de líneas que compara el FID con los flops directos individuales para tres métodos: SCM de 1 paso (rojo), SCM de 2 pasos (azul) y Difusión (naranja), en todos los tamaños de modelo (S, M, L, XL, XXL). Todas las líneas muestran una disminución del FID a medida que aumentan los flops, y la difusión tiene el mejor rendimiento.

Escala de relación FID

Gráfico de líneas que muestra la relación FID en función de los flops de avance individuales para SCM de 1 paso (rojo), SCM de 2 pasos (azul) y Difusión (naranja, constante en 1,0), en todos los tamaños de modelo (S, M, L, XL, XXL). Los SCM de 1 paso y de 2 pasos muestran diferentes relaciones FID.

 sCM se escala proporcionalmente con los modelos de difusión docente.

Limitaciones

Los mejores sCM aún dependen de modelos de difusión entrenados previamente para la inicialización y la destilación, lo que da como resultado una brecha pequeña pero constante en la calidad de la muestra en comparación con el modelo de difusión del maestro. Además, la FID como métrica para la calidad de la muestra tiene sus propias limitaciones; estar cerca en las puntuaciones de FID no siempre refleja la calidad real de la muestra, y viceversa. Por lo tanto, es posible que la calidad de los sCM deba evaluarse de manera diferente según los requisitos de aplicaciones específicas.

¿Qué sigue?

Seguiremos trabajando para desarrollar mejores modelos generativos con mayor velocidad de inferencia y calidad de muestra. Creemos que estos avances abrirán nuevas posibilidades para la IA generativa de alta calidad y en tiempo real en una amplia gama de dominios. OpenAI. Ch. L.

Artículos relacionados

Scroll al inicio