La herramienta de inteligencia artificial generativa CausVid utiliza un modelo de difusión para enseñar a un sistema autorregresivo (cuadro por cuadro) a producir rápidamente videos estables y de alta resolución.
¿Cómo sería una mirada entre bastidores a un vídeo generado por un modelo de inteligencia artificial? Podrías pensar que el proceso es similar a la animación stop-motion, donde se crean y unen muchas imágenes, pero no es así con los «modelos de difusión» como SORA de OpenAl y VEO 2 de Google.
En lugar de producir un video fotograma a fotograma (o «autorregresivamente»), estos sistemas procesan toda la secuencia a la vez. El clip resultante suele ser fotorrealista, pero el proceso es lento y no permite cambios sobre la marcha.
Científicos del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y Adobe Research han desarrollado un enfoque híbrido, llamado «CausVid», para crear videos en segundos. Al igual que un estudiante ingenioso que aprende de un profesor experto, un modelo de difusión de secuencia completa entrena un sistema autorregresivo para predecir rápidamente el siguiente fotograma, garantizando al mismo tiempo alta calidad y consistencia. El modelo de estudiante de CausVid puede entonces generar clips a partir de una simple instrucción de texto, convirtiendo una foto en una escena en movimiento, extendiendo un video o alterando sus creaciones con nuevas entradas a mitad de generación.
Esta herramienta dinámica permite la creación rápida e interactiva de contenido, reduciendo un proceso de 50 pasos a solo unas pocas acciones. Permite crear numerosas escenas imaginativas y artísticas, como un avión de papel transformándose en cisne, mamuts lanudos aventurándose en la nieve o un niño saltando en un charco. Los usuarios también pueden crear una indicación inicial, como «generar un hombre cruzando la calle», y luego añadir elementos adicionales a la escena, como «escribe en su cuaderno al llegar a la acera de enfrente».

Un vídeo producido por CausVid ilustra su capacidad para crear contenido fluido y de alta calidad.Animación generada por IA cortesía de los investigadores.
Los investigadores de CSAIL afirman que el modelo podría utilizarse para diversas tareas de edición de vídeo, como ayudar a los espectadores a comprender una transmisión en directo en otro idioma mediante la generación de un vídeo sincronizado con la traducción del audio. También podría ayudar a renderizar nuevo contenido en un videojuego o a producir rápidamente simulaciones de entrenamiento para enseñar nuevas tareas a los robots.
Tianwei Yin SM ’25, PhD ’25, estudiante recién graduado de ingeniería eléctrica e informática y afiliado de CSAIL, atribuye la solidez del modelo a su enfoque mixto.
“CausVid combina un modelo basado en difusión pre-entrenado con arquitectura autorregresiva que típicamente se encuentra en modelos de generación de texto”, dice Yin, co-autor principal de un nuevo artículo sobre la herramienta. “Este modelo de profesor potenciado por IA puede prever pasos futuros para entrenar un sistema cuadro por cuadro para evitar cometer errores de renderizado”.
El co-autor principal de Yin, Qiang Zhang, es un científico investigador en xAI y un ex investigador visitante de CSAIL. Trabajaron en el proyecto con los científicos de Adobe Research Richard Zhang, Eli Shechtman y Xun Huang, y dos investigadores principales de CSAIL: los profesores del MIT Bill Freeman y Frédo Durand.
Caus(Vid) y efecto
Muchos modelos autorregresivos pueden crear un video que es fluido inicialmente, pero la calidad tiende a caer más adelante en la secuencia. Un clip de una persona corriendo puede parecer realista al principio, pero sus piernas comienzan a agitarse en direcciones poco naturales, lo que indica inconsistencias cuadro por cuadro (también llamado “acumulación de errores”).
La generación de video propensa a errores era común en los enfoques causales anteriores, que aprendían a predecir fotogramas uno por uno por sí solos. En cambio, CausVid utiliza un modelo de difusión de alta potencia para enseñar a un sistema más simple su experiencia general en video, lo que le permite crear imágenes fluidas, pero con mucha más rapidez.
Reproducir vídeoCausVid permite la creación rápida de videos interactivos, simplificando un proceso de 50 pasos a solo unas pocas acciones.Video cortesía de los investigadores.
CausVid demostró su capacidad para crear videos cuando los investigadores probaron su capacidad para crear videos de alta resolución de 10 segundos. Superó a plataformas como OpenSORA y MovieGen , trabajando hasta 100 veces más rápido que la competencia y produciendo clips de la más alta calidad y estabilidad.
Posteriormente, Yin y sus colegas probaron la capacidad de CausVid para generar videos estables de 30 segundos, donde también superó a modelos comparables en calidad y consistencia. Estos resultados indican que CausVid podría eventualmente producir videos estables de varias horas de duración, o incluso indefinidamente.
Un estudio posterior reveló que los usuarios preferían los videos generados por el modelo de estudiantes de CausVid a su modelo de profesores basado en la difusión.
“La velocidad del modelo autorregresivo realmente marca la diferencia”, afirma Yin. “Sus videos se ven igual de bien que los del profesor, pero al tener menos tiempo para producirlos, la desventaja es que sus elementos visuales son menos diversos”.
CausVid también destacó en pruebas con más de 900 indicaciones utilizando un conjunto de datos de texto a video, obteniendo la máxima puntuación general de 84,27. Obtuvo las mejores métricas en categorías como calidad de imagen y acciones humanas realistas, eclipsando modelos de generación de video de vanguardia como » Vchitect » y » Gen-3 » .
Si bien CausVid representa un avance eficiente en la generación de video con IA, pronto podrá diseñar imágenes aún más rápido, quizás al instante, con una arquitectura causal más pequeña. Yin afirma que si el modelo se entrena con conjuntos de datos específicos del dominio, probablemente creará clips de mayor calidad para robótica y videojuegos.
Los expertos afirman que este sistema híbrido es una mejora prometedora respecto a los modelos de difusión, que actualmente se ven limitados por la velocidad de procesamiento. «[Los modelos de difusión] son mucho más lentos que los modelos de lenguaje extenso (LLM) o los modelos de imágenes generativas», afirma el profesor adjunto de la Universidad Carnegie Mellon, Jun-Yan Zhu, quien no participó en el artículo. «Este nuevo trabajo cambia eso, haciendo que la generación de video sea mucho más eficiente. Esto se traduce en una mejor velocidad de transmisión, más aplicaciones interactivas y una menor huella de carbono».
El trabajo del equipo contó con el apoyo parcial del Amazon Science Hub, el Instituto de Ciencia y Tecnología de Gwangju, Adobe, Google, el Laboratorio de Investigación de la Fuerza Aérea de EE. UU. y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de EE. UU. CausVid se presentará en la Conferencia sobre Visión Artificial y Reconocimiento de Patrones en junio. MIT News. A. S. Traducido al español