Modelos de texto a video: ¿con quién es vecina Sora?

Google, Meta, Stability AI… Aquí hay algunas iniciativas de modelos de texto a video que surgieron antes de que OpenAI presentara Sora.

¿Hasta 60 segundos de video desde un mensaje de texto? Ahí está Sora para eso.

OpenAI formalizó la semana pasada este modelo de texto a vídeo… lo que generó cierta expectación, aunque en fase experimental en un círculo cerrado.

Difusión Estable disponible en versión vídeo

Para encontrar un modelo de este tipo abierto a un público más amplio, podemos recurrir a la API Stability AI. Desde hace varias semanas proporciona acceso a Stable Video Diffusion . Sin embargo, esto no toma texto como entrada: es un modelo de imagen a video .
El precio es fijo: 20$ por crear un vídeo. El modelo está entrenado para generar 25 imágenes, de 3 a 30 FPS, en 1024 x 576, 576 x 1024 o 768 x 768. Nos dicen un tiempo de procesamiento de “menos de 2 minutos”.

La estabilidad hizo oficial el modelo en noviembre de 2023. O más precisamente los modelos. La versión de “25 imágenes” en realidad se basa en una versión de “14 imágenes”. El código de inferencia y los pesos están disponibles para uso no comercial. Se está trabajando en una interfaz de usuario web .

La difusión de video estable está en alfa. La API se actualizó recientemente a la versión 1.1 del modelo. El resultado son más garantías de reproducibilidad, parámetros adicionales para aumentar la calidad y avances en la generación en formatos cuadrado/retrato.

magen y Lumiere, dos iniciativas de conversión de texto a vídeo de Google

En Google, el modelo Imagen se explota comercialmente por sus capacidades de generación de imágenes. También puede crear vídeos, pero esta funcionalidad permanece en estado de investigación. Fue el tema de un artículo publicado en 2022. Vislumbramos una arquitectura que involucra una “cascada” de modelos de difusión espacial y temporal entrelazados.

arquitectura Imagen Vídeo
Un modelo básico genera un vídeo de 16 fotogramas a 40 x 24 a 3 FPS. Luego intervienen múltiples modelos espaciales y temporales para operar la superresolución.

Google tiene otro modelo de conversión de texto a vídeo en sus laboratorios: Lumiere . Fue el tema de un artículo en enero de 2024. Aquí no se trata de una arquitectura en cascada, sino de un enfoque unificado: en lugar de generar imágenes separadas y llenar el vacío con la ayuda de modelos temporales de superresolución, generamos el vídeo en una sola pasada.

Luz de Google

Al igual que ocurre con Stable Diffusion Video e Imagen, nos quedamos en vídeos de pocos segundos, lejos de lo que promete OpenAI.

Make-a-Video, experimentación hecha en Meta

Meta también ha mostrado trabajos en el área de modelos de texto a vídeo . Particularmente con Make-a-Video . Encontramos un enfoque que fusiona capas espaciales y temporales.

Hacer un vídeo

Make-a-Video pasó por un curso de formación en dos etapas. Primero a partir de pares texto-imagen para “aprender cómo es el mundo y cómo lo describimos”. Luego vídeos sin anotaciones para “comprender el movimiento”.

El modelo puede trabajar tanto con texto como con imágenes. Puede crear variaciones de un video y crear movimiento entre una imagen inicial y una imagen final. Fuente: NetMedia-Francia(CB), traducido al español.

Ilustración principal © Tada Images – Adobe Stock

Comparte la nota:

Artículos relacionados

Scroll al inicio