El Portal de las Tecnologías para la Innovación

Meta avanza en la creación de videos con inteligencia artificial generativa con Movie Gen

El equipo de investigación de inteligencia artificial de Meta Platforms Inc. 
ha presentado una nueva familia de modelos de IA generativa para medios que pueden generar y editar videos a partir de indicaciones de texto simples.

Aunque los modelos aún están en desarrollo, la compañía dijo que proporcionarán la base de las nuevas funciones de creación de videos que aparecerán en Facebook, Instagram y WhatsApp el próximo año. Los modelos Meta Movie Gen permitirán a los usuarios crear videos e imágenes HD de alta calidad, editar esas creaciones, generar audio y bandas sonoras e incluso incorporar su propia imagen en ellas, dijo la compañía.

En una publicación de blog , el equipo de IA de Meta explicó que su objetivo es marcar el comienzo de una nueva era de contenido generado por IA para los creadores en sus plataformas. Los modelos Meta Movie Gen se basan en el trabajo anterior de la empresa en la creación de contenido de IA generativa, que comenzó con sus modelos «Make-A-Scene» que debutaron en 2022, permitiendo a los usuarios crear imágenes y pistas de audio simples, y más tarde videos y animaciones 3D. Los modelos básicos posteriores de Llama Image de Meta ampliaron este trabajo, introduciendo imágenes y videos de mayor calidad, así como capacidades de edición.

“Movie Gen es nuestra tercera ola, que combina todas estas modalidades y permite un control más detallado para las personas que usan los modelos de una manera que nunca antes había sido posible”, dijo el equipo de IA de Meta en una publicación de blog.

Según Meta, la colección Movie Gen está compuesta por cuatro modelos que permiten la generación de vídeo, generación de vídeo personalizada, edición precisa de vídeo y generación de audio.

El primero de los modelos, Video Generation, es un modelo de transformador de 30 mil millones de parámetros que puede generar videos de hasta 16 segundos de duración a 16 cuadros por segundo a partir de indicaciones que pueden ser texto simple, imágenes o una combinación de ambos. Meta explicó que está construido sobre una arquitectura de modelo conjunto que está optimizada tanto para texto a imagen como para texto a video, y presenta capacidades avanzadas como la capacidad de razonar sobre el movimiento de objetos, interacciones sujeto-objeto y movimiento de cámara, por lo que puede replicar un movimiento más realista en los videos que produce.

El modelo de videos personalizados es un poco diferente, ya que está diseñado específicamente para tomar una imagen del usuario y crear videos protagonizados por él, según las indicaciones de texto del usuario.

Meta explicó que el mismo modelo de transformador fundacional se utilizó como base de su modelo de edición de video precisa. Para usarlo, el usuario simplemente carga el video que desea editar, junto con una entrada de texto que describe cómo desea que se edite, y el modelo hará el resto.

El objetivo es ofrecer una mayor precisión a los creadores, que pueden usarlo para agregar, eliminar o cambiar elementos específicos de un video, como el fondo, los objetos del video o modificaciones de estilo, según la empresa. Esto se logra al mismo tiempo que se conserva el contenido del video original y se enfoca solo en los píxeles relevantes.

En cuanto a la herramienta de generación de audio, esta se basa en un modelo de generación de audio de 13 mil millones de parámetros que puede tomar entradas de video y texto para crear bandas sonoras de alta fidelidad de hasta 45 segundos. Es capaz de generar sonido ambiental, efectos de sonido y música instrumental de fondo, dijo Meta, y sincronizarlos con el contenido del video.

Todavía es un trabajo en progreso

Meta no ha dicho nada sobre si pondrá a disposición de otros los modelos de Meta Movie Gen, ni cuándo lo hará, pero la empresa generalmente opta por publicar en código abierto sus innovaciones de IA, como sus modelos Llama. Por lo tanto, es probable que no pase mucho tiempo hasta que los desarrolladores puedan comenzar a experimentar con ellos.

Cuando se lance, Meta Movie Gen competirá con varios otros modelos de generación de video, como Gen-3 Alpha Turbo de Runway AI Inc. , el próximo Sora de OpenAI , Veo de Google DeepMind , Firefly de Adobe Inc. , Dream Machine de Luma AI Inc.  y  las herramientas de edición de video de Captions LLC .

La empresa confía en poder competir con esos rivales. Por otra parte, publicó un artículo de investigación para aquellos que quieran profundizar más en el funcionamiento interno de los modelos de Meta Movie Gen. En el artículo, afirma que se han producido varios avances en la arquitectura de modelos, los objetivos de entrenamiento, las recetas de datos, las optimizaciones de inferencia y los protocolos de evaluación, y cree que estas innovaciones permiten a Meta Movie Gen superar significativamente a sus competidores.

Dicho esto, Meta admite que todavía hay mucho margen de mejora en sus modelos y está planeando realizar más optimizaciones para disminuir el tiempo de inferencia y mejorar la calidad de los vídeos que genera.

Holger Mueller, de Constellation Research Inc., dijo que la IA generativa ya ha revolucionado la forma en que las personas escriben texto, crean imágenes, comprenden documentos y corrigen códigos, y la industria ahora está recurriendo a la tarea más difícil de la creación de videos.

“Crear películas y vídeos es un proceso lento y costoso que cuesta mucho dinero”, dijo Mueller. “Meta promete ofrecer a los creadores una alternativa más rápida y mucho más asequible con Meta Movie Gen, y podría democratizar la creación de películas. Si lo hace, probablemente provocará una gran conmoción en la industria cinematográfica tradicional”.

Meta dijo que los próximos pasos implican trabajar en estrecha colaboración con cineastas y otros creadores para integrar sus comentarios en los modelos de Meta Movie Gen, con el objetivo de llegar a un producto terminado que en última instancia esté destinado a aparecer en plataformas como Facebook e Instagram.

“Imagina animar un video de un día en la vida de un usuario para compartirlo en Reels y editarlo con indicaciones de texto, o crear un saludo de cumpleaños animado personalizado para un amigo y enviárselo por WhatsApp”, afirmó la empresa. “Con la creatividad y la autoexpresión a cargo, las posibilidades son infinitas”. SiliconANGLE. M. W. Traducido al español

Artículos relacionados

Scroll al inicio