Modelos de consistencia en el tiempo continuo con calidad de muestra comparable a los modelos de difusión líderes en solo dos pasos de muestreo.
Los modelos de difusión han revolucionado la IA generativa, lo que ha permitido avances notables en la generación de imágenes realistas, modelos 3D, audio y vídeo. Sin embargo, a pesar de sus impresionantes resultados, estos modelos son lentos en el muestreo.
Estamos compartiendo un nuevo enfoque, llamado sCM, que simplifica la formulación teórica de modelos de consistencia de tiempo continuo, lo que nos permite estabilizar y escalar su entrenamiento para conjuntos de datos de gran escala. Este enfoque logra una calidad de muestra comparable a la de los principales modelos de difusión, mientras que utiliza solo dos pasos de muestreo. También estamos compartiendo nuestro artículo de investigación para apoyar un mayor progreso en este campo.
Introducción
Los métodos actuales de muestreo de los modelos de difusión suelen requerir decenas o cientos de pasos secuenciales para generar una sola muestra, lo que limita su eficiencia y escalabilidad para aplicaciones en tiempo real. Se han desarrollado diversas técnicas de destilación para acelerar el muestreo, pero suelen tener limitaciones, como altos costos computacionales, capacitación compleja y calidad reducida de la muestra.
Ampliando nuestra investigación previa sobre modelos de consistencia 1 , 2 , hemos simplificado la formulación y estabilizado aún más el proceso de entrenamiento de modelos de consistencia de tiempo continuo. Nuestro nuevo enfoque, llamado sCM, nos ha permitido escalar el entrenamiento de modelos de consistencia de tiempo continuo a una cantidad sin precedentes de 1.5 mil millones de parámetros en ImageNet a una resolución de 512×512. Los sCM pueden generar muestras con una calidad comparable a los modelos de difusión utilizando solo dos pasos de muestreo, lo que resulta en una aceleración del reloj de pared de ~50x. Por ejemplo, nuestro modelo más grande, con 1.5 mil millones de parámetros, genera una sola muestra en solo 0,11 segundos en una sola GPU A100 sin ninguna optimización de inferencia. Se puede lograr fácilmente una aceleración adicional a través de la optimización personalizada del sistema, lo que abre posibilidades para la generación en tiempo real en varios dominios, como imagen, audio y video.
Para una evaluación rigurosa, comparamos el sCM con otros modelos generativos de última generación comparando tanto la calidad de la muestra, utilizando las puntuaciones estándar de distancia de inicio de Fréchet (FID) (donde cuanto menor, mejor), como el cálculo de muestreo efectivo, que estima el costo computacional total para generar cada muestra. Como se muestra a continuación, nuestro sCM de 2 pasos produce muestras con una calidad comparable a los mejores métodos anteriores mientras utiliza menos del 10 % del cálculo de muestreo efectivo, lo que acelera significativamente el proceso de muestreo.
Cómo funciona
Los modelos de consistencia ofrecen una alternativa más rápida a los modelos de difusión tradicionales para generar muestras de alta calidad. A diferencia de los modelos de difusión, que generan muestras gradualmente a través de una gran cantidad de pasos de eliminación de ruido, los modelos de consistencia tienen como objetivo convertir el ruido directamente en muestras libres de ruido en un solo paso. Esta diferencia se visualiza mediante rutas en el diagrama: la línea azul representa el proceso de muestreo gradual de un modelo de difusión, mientras que la curva roja ilustra el muestreo más directo y acelerado de un modelo de consistencia. Mediante técnicas como el entrenamiento de consistencia o la destilación de consistencia 1 , 2 , los modelos de consistencia se pueden entrenar para generar muestras de alta calidad con significativamente menos pasos, lo que los hace atractivos para aplicaciones prácticas que requieren una generación rápida.
Ilustración sobre el muestreo del modelo de difusión (rojo) y el muestreo del modelo de consistencia (azul).
Hemos entrenado un modelo de consistencia de tiempo continuo con 1.500 millones de parámetros en ImageNet 512×512 y proporcionamos muestras de dos pasos de este modelo para demostrar sus capacidades.
Muestras seleccionadas de 2 pasos de un modelo de consistencia de tiempo continuo entrenado en ImageNet 512×512.
Nuestro modelo de difusión de los maestros destila conocimiento de un modelo de difusión entrenado previamente. Un hallazgo clave es que los modelos de difusión de los maestros mejoran proporcionalmente con el modelo de difusión de los maestros a medida que ambos aumentan su escala. Específicamente, la diferencia relativa en la calidad de la muestra, medida por la relación de las puntuaciones FID, permanece constante en varios órdenes de magnitud en los tamaños de los modelos, lo que hace que la diferencia absoluta en la calidad de la muestra disminuya a escala. Además, aumentar los pasos de muestreo para los modelos de difusión de los maestros reduce aún más la brecha de calidad. Cabe destacar que las muestras de dos pasos de los modelos de difusión de los maestros ya son comparables (con una diferencia relativa de menos del 10 % en las puntuaciones FID) a las muestras del modelo de difusión de los maestros, que requiere cientos de pasos para generarse.
Escalamiento FID
Escala de relación FID
sCM se escala proporcionalmente con los modelos de difusión docente.
Limitaciones
Los mejores sCM aún dependen de modelos de difusión entrenados previamente para la inicialización y la destilación, lo que da como resultado una brecha pequeña pero constante en la calidad de la muestra en comparación con el modelo de difusión del maestro. Además, la FID como métrica para la calidad de la muestra tiene sus propias limitaciones; estar cerca en las puntuaciones de FID no siempre refleja la calidad real de la muestra, y viceversa. Por lo tanto, es posible que la calidad de los sCM deba evaluarse de manera diferente según los requisitos de aplicaciones específicas.
¿Qué sigue?
Seguiremos trabajando para desarrollar mejores modelos generativos con mayor velocidad de inferencia y calidad de muestra. Creemos que estos avances abrirán nuevas posibilidades para la IA generativa de alta calidad y en tiempo real en una amplia gama de dominios. OpenAI. Ch. L.