En los últimos meses, varias empresas importantes han entrado en el sector de la conversión de texto a vídeo. En diciembre de 2024, OpenAI lanzó Sora , su primer modelo capaz de generar videoclips cortos a partir de texto. En mayo de 2025, Google Gemini presentó Veo 3 , que se centra en la calidad y la coherencia del vídeo. El sector está en rápido crecimiento, pero los fundadores de Moonvalley creen que muchas opciones en el mercado pasan por alto un factor esencial: la percepción de los artistas sobre la IA.
“Desde el primer día, nuestra perspectiva fue básicamente construir modelos de producción”, declaró Naeem Talukdar , cofundador y director ejecutivo de Moonvalley, en una entrevista con IBM Think . “¿Cuáles son los modelos que los cineastas y creadores necesitan y desean usar?” Moonvalley ha reclutado investigadores de DeepMind y Google, y también es socio de Asteria, un estudio cinematográfico de IA fundado por el ejecutivo cinematográfico Bryn Mooser .
¿IA para Hollywood?
Desde el despegue de la investigación sobre modelos de generación de texto a video, muchos en la industria de la IA anticiparon una nueva revolución en la producción cinematográfica y televisiva. El director James Cameron se unió a la junta directiva de Stability AI hace casi un año, y el ganador del Óscar Darren Aronofsky anunció recientemente una alianza con Google DeepMind. Cabe mencionar también que, según la Academia, las películas creadas con IA podrán ganar premios Óscar. Netflix acaba de estrenar su primera serie con IA generativa.
La IA ha sido un tema delicado en Hollywood, especialmente durante la huelga de guionistas. Muchos artistas han expresado abiertamente su temor a que su voz o imagen puedan ser replicadas sin su consentimiento.
Pero según Talukdar, la mayoría de los productores aún no han dado el salto a la IA. No por lo que la tecnología pueda o no pueda hacer, sino por el temor a los derechos de autor. «Lo que descubrimos a nivel de estudio es que, por razones legales y éticas, nadie quería tocar estos modelos debido a los datos con los que han sido entrenados», dijo.
“Independientemente de cómo se alineen las diferentes demandas y cómo se siente el precedente, lo que es incuestionable es el temor de que, si se utiliza un modelo entrenado con millones y millones de horas de metraje, se podría estar filtrando o generando material con derechos de autor, incluso sin intención”, añadió Talukdar. “Es un asunto completamente prohibido para cineastas y compañías serias”.
Crear una herramienta que empodere a los artistas y alivie este miedo es la idea detrás del modelo fundacional de Moonvalley, Marey , lanzado en julio. El modelo se entrenó con contenido con licencia, según la compañía, que también se enorgullece de ofrecer un mayor control a los creadores.
“Consideramos a nuestros clientes como profesionales en general. No nos centramos en el consumidor ni en los vídeos de TikTok”, declaró Mooser en una entrevista con IBM Think . “Los creativos y cineastas profesionales necesitan tener control sobre lo que crean, más allá de escribir algunas palabras”.
Desarrollar el modelo planteó dos desafíos: el primero fue encontrar datos, que la empresa consiguió contactando individualmente a cineastas y youtubers.
“Salvo unas pocas empresas de material de archivo, no existe un mercado amplio de licencias para sus datos, y mucho menos para licencias de datos de vídeo para formación”, afirmó Talukdar. “Había un importante componente operativo: simplemente encontrar los datos, negociar con los creadores, llegar a acuerdos y, por supuesto, conseguir los recursos como startup”.
El otro desafío es técnico: el volumen de datos. «Estimamos que utilizamos probablemente cinco veces menos datos para entrenar nuestro modelo que nuestro modelo comparable más cercano», dijo Talukdar. «Creemos que si se tienen cinco veces menos datos, se necesita una arquitectura cinco veces mejor. Es un aspecto fundamental de todo lo que hemos hecho hasta ahora», dijo, refiriéndose al equipo de investigación que formó. «Realmente hemos formado el equipo de investigación con mayor talento del sector».
¿Potenciar el talento y no sustituirlo?
El lanzamiento a principios de este verano recibió una amplia cobertura en la prensa, y desde entonces Moonvalley también anunció una nueva ronda de financiación, junto con proyectos que incluyen a celebridades como la actriz y directora Natasha Lyonne (que cofundó Asteria con Mooser) y Jaron Lanier, un veterano de Silicon Valley y científico informático conocido por ser pionero en la realidad virtual.
“No han visto lo que esta tecnología puede hacer en manos de grandes cineastas”, dijo Mooser. “Y eso es lo que se avecina en los próximos seis meses a un año”. Sugirió que Hollywood está a punto de vivir otro momento como Toy Story , donde de repente se vuelve innegable que la creatividad y la tecnología pueden ir de la mano, impresionar a la crítica y generar grandes ingresos en taquilla.
“Eso viene con la IA, pero será una historia empresarial más que creativa. Verán una película con un presupuesto como Flow y hecha por un equipo pequeño como Flow , pero que genera la taquilla de Lilo y Stitch”, dijo Mooser. “Y será propiedad de los cineastas. La gente dirá que ese fue el momento en que toda la industria se transformó porque alguien pudo hacer una película de estudio con un presupuesto independiente”.
Con Marey, el equipo detrás de Moonvalley cree que la IA tiene una verdadera oportunidad de transformar no solo la industria cinematográfica, sino el cine mismo. Marey no solo resuelve un desafío técnico. «Es como esperar que un LLM escriba un libro, ¿verdad?», preguntó Mooser. «Es posible, tecnológicamente hablando. Pero el problema es que nadie va a leer ese libro. Ese es el problema, en definitiva, la IA no tiene buen gusto. Y eso es lo que creo que la gente ha pasado por alto».
IBM Blog. A. N. Traducido al español