El Portal de las Tecnologías para la Innovación

Creación de vídeo a partir de texto

Sora es un modelo de IA que puede crear escenas realistas e imaginativas a partir de instrucciones de texto.

Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción en el mundo real.

Presentamos Sora, nuestro modelo de conversión de texto a video. Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario.

tokyo-walk

Indicación: Una mujer elegante camina por una calle de Tokio llena de luces de neón cálidas y letreros de la ciudad animados. Lleva una chaqueta de cuero negra, un vestido rojo largo y botas negras, y lleva un bolso negro. Lleva gafas de sol y lápiz labial rojo. Camina con seguridad y de manera informal. La calle está húmeda y refleja la luz, lo que crea un efecto espejo de las luces de colores. Muchos peatones caminan por allí.

wooly mammoth

Indicación: Varios mamuts lanudos gigantes se acercan caminando por un prado nevado, su largo pelaje lanudo se mueve suavemente con el viento mientras caminan, árboles cubiertos de nieve y espectaculares montañas cubiertas de nieve en la distancia, la luz de media tarde con nubes tenues y un sol alto en la distancia crea un brillo cálido, la vista baja de la cámara es impresionante y captura al gran mamífero peludo con una hermosa fotografía, profundidad de campo.

space-man

Indicación: Tráiler de una película que presenta las aventuras de un astronauta de 30 años que viste un casco de motocicleta tejido de lana roja, un cielo azul, un desierto salado, estilo cinematográfico, filmado en película de 35 mm, colores vivos.

ocean-cliff

Indicación: Vista aérea de las olas rompiendo contra los escarpados acantilados de la playa de Garay Point en Big Sur. Las aguas azules que se estrellan crean olas con puntas blancas, mientras que la luz dorada del sol poniente ilumina la costa rocosa. A lo lejos se ve una pequeña isla con un faro y el borde del acantilado está cubierto por arbustos verdes. La pronunciada caída desde la carretera hasta la playa es una hazaña espectacular, con los bordes del acantilado sobresaliendo sobre el mar. Esta es una vista que captura la belleza natural de la costa y el paisaje accidentado de la Pacific Coast Highway.

creature-candle

Indicación: La escena animada presenta un primer plano de un pequeño monstruo peludo arrodillado junto a una vela roja derretida. El estilo artístico es tridimensional y realista, con un enfoque en la iluminación y la textura. El estado de ánimo de la pintura es de asombro y curiosidad, mientras el monstruo mira la llama con los ojos y la boca muy abiertos. Su pose y expresión transmiten una sensación de inocencia y alegría, como si estuviera explorando el mundo que lo rodea por primera vez. El uso de colores cálidos y una iluminación dramática realza aún más la atmósfera acogedora de la imagen.

coral-reef

Indicación: Un mundo de papel maravillosamente representado de un arrecife de coral, repleto de peces coloridos y criaturas marinas.

victoria-pigeon

Indicación: Esta fotografía en primer plano de una paloma coronada Victoria muestra su llamativo plumaje azul y su pecho rojo. Su cresta está formada por delicadas plumas con forma de encaje, mientras que su ojo es de un llamativo color rojo. La cabeza del ave está ligeramente inclinada hacia un lado, lo que da la impresión de que luce majestuosa y regia. El fondo está borroso, lo que llama la atención sobre la llamativa apariencia del ave.

pirate-coffee

Indicación: Vídeo fotorrealista en primer plano de dos barcos piratas luchando entre sí mientras navegan dentro de una taza de café.

man-reading

Indicación: Un joven de unos 20 años está sentado en una nube en el cielo, leyendo un libro.

Hoy, Sora está disponible para que los miembros del equipo rojo evalúen áreas críticas en busca de daños o riesgos. También estamos otorgando acceso a una serie de artistas visuales, diseñadores y cineastas para que obtengan comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos.

Estamos compartiendo nuestro progreso de investigación de manera anticipada para comenzar a trabajar y recibir comentarios de personas fuera de OpenAI y para brindarle al público una idea de las capacidades de IA que se avecinan.

gold-rush

Indicación: Imágenes históricas de California durante la fiebre del oro.

dwarf-zen-garden

Indicación: Vista en primer plano de una esfera de vidrio que contiene un jardín zen en su interior. Hay un pequeño enano en la esfera que rastrilla el jardín zen y crea patrones en la arena.

eye-close-up

Indicación: Primerísimo plano del ojo parpadeante de una mujer de 24 años, de pie en Marrakech durante la hora mágica, película cinematográfica filmada en 70 mm, profundidad de campo, colores vivos, cinematográfico

dancing-kangaroo

Indicación: Un canguro de dibujos animados baila disco.

lagos-nigeria

Indicación: Un hermoso vídeo casero que muestra a la gente de Lagos, Nigeria, en el año 2056. Filmado con la cámara de un teléfono móvil.

red-panda-petri-dish

Indicación: Una placa de Petri con un bosque de bambú creciendo en su interior y con pequeños pandas rojos corriendo alrededor.

vintage-tv

Indicación: La cámara gira alrededor de una gran pila de televisores antiguos que muestran diferentes programas (películas de ciencia ficción de los años 50, películas de terror, noticias, estática, una comedia de los años 70, etc.) dentro de una gran galería de un museo de Nueva York.

fluffy-creature

Indicación: Animación en 3D de una criatura pequeña, redonda y esponjosa con ojos grandes y expresivos que explora un bosque vibrante y encantado. La criatura, una mezcla caprichosa de conejo y ardilla, tiene un pelaje azul suave y una cola tupida y rayada. Salta a lo largo de un arroyo centelleante, con los ojos muy abiertos por la maravilla. El bosque está lleno de elementos mágicos: flores que brillan y cambian de color, árboles con hojas en tonos violeta y plateado, y pequeñas luces flotantes que se parecen a luciérnagas. La criatura se detiene para interactuar juguetonamente con un grupo de seres diminutos, parecidos a hadas, que bailan alrededor de un anillo de hongos. La criatura mira hacia arriba con asombro un árbol grande y brillante que parece ser el corazón del bosque.

Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no solo lo que el usuario ha solicitado en el mensaje, sino también cómo existen esas cosas en el mundo físico.

suv-off-road

Aviso: La cámara sigue detrás de un todoterreno vintage blanco con un portaequipajes negro mientras acelera por un camino de tierra empinado rodeado de pinos en una empinada ladera de montaña, el polvo se levanta de sus neumáticos, la luz del sol brilla sobre el todoterreno mientras acelera por el camino de tierra, arrojando un cálido resplandor sobre la escena. El camino de tierra se curva suavemente en la distancia, sin otros autos o vehículos a la vista. Los árboles a ambos lados del camino son secuoyas, con parches de vegetación esparcidos por todas partes. El auto se ve desde atrás siguiendo la curva con facilidad, lo que hace que parezca que está en un viaje accidentado a través del terreno accidentado. El camino de tierra en sí está rodeado de empinadas colinas y montañas, con un cielo azul claro arriba con tenues nubes.

window-train

Indicación: Reflejos en la ventana de un tren que viaja por los suburbios de Tokio.

amalfi-coast

Aviso: Una cámara de un dron vuela alrededor de una hermosa iglesia histórica construida sobre un afloramiento rocoso a lo largo de la costa de Amalfi, la vista muestra detalles arquitectónicos históricos y magníficos y caminos y patios escalonados, se ven olas rompiendo contra las rocas de abajo mientras la vista domina el horizonte de las aguas costeras y los paisajes montañosos de la costa de Amalfi, Italia, se ven varias personas distantes caminando y disfrutando de las vistas en los patios de las espectaculares vistas del océano, el cálido resplandor del sol de la tarde crea una sensación mágica y romántica en la escena, la vista es impresionante capturada con hermosas fotografías.

octopus-crab

Indicación: Se ve un gran pulpo naranja descansando en el fondo del océano, mimetizándose con el terreno arenoso y rocoso. Tiene los tentáculos extendidos alrededor de su cuerpo y los ojos cerrados. El pulpo no se da cuenta de que hay un cangrejo real que se arrastra hacia él desde detrás de una roca, con las pinzas levantadas y listo para atacar. El cangrejo es marrón y espinoso, con patas y antenas largas. La escena está capturada desde un ángulo amplio, que muestra la inmensidad y la profundidad del océano. El agua es clara y azul, con rayos de sol filtrándose a través de ella. La toma es nítida y clara, con un alto rango dinámico. El pulpo y el cangrejo están enfocados, mientras que el fondo está ligeramente borroso, lo que crea un efecto de profundidad de campo.

paper-airplanes

Indicación: Una bandada de aviones de papel revolotea a través de una densa jungla, zigzagueando entre los árboles como si fueran aves migratorias.

cat-alarm

Indicación: Un gato despierta a su dueño dormido y le pide el desayuno. El dueño intenta ignorarlo, pero este prueba nuevas tácticas y, finalmente, el dueño saca un escondite secreto de golosinas de debajo de la almohada para mantenerlo alejado un poco más.

birds-river

Aviso: Fauna de Borneo en el río Kinabatangan

dragon-dance

Indicación: Un vídeo de celebración del Año Nuevo Lunar chino con un dragón chino.

El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes atractivos que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que conservan con precisión los personajes y el estilo visual.

art-gallery

Indicación: Recorrido por una galería de arte con muchas obras de arte hermosas en diferentes estilos.

snow-sidewalk

Indicación: La hermosa y nevada ciudad de Tokio está llena de vida. La cámara se mueve por la bulliciosa calle de la ciudad, siguiendo a varias personas que disfrutan del hermoso clima nevado y compran en los puestos cercanos. Hermosos pétalos de sakura vuelan con el viento junto con los copos de nieve.

blooming-flower

Indicación: Una animación stop motion de una flor que crece en el alféizar de la ventana de una casa suburbana.

robot

Indicación: La historia de la vida de un robot en un entorno ciberpunk.

grey-haired-man

Indicación: Un primer plano extremo de un hombre de cabello gris con barba de unos 60 años, está sumido en sus pensamientos reflexionando sobre la historia del universo mientras está sentado en un café en París, sus ojos se enfocan en las personas fuera de la pantalla mientras caminan mientras él se sienta casi inmóvil, está vestido con un abrigo de lana con una camisa abotonada, usa una boina marrón y anteojos y tiene una apariencia muy profesoral, y al final ofrece una sutil sonrisa con la boca cerrada como si encontrara la respuesta al misterio de la vida, la iluminación es muy cinematográfica con la luz dorada y las calles parisinas y la ciudad de fondo, profundidad de campo, película cinematográfica de 35 mm.

moon-wolf

Indicación: Una hermosa animación de silueta muestra a un lobo aullando a la luna, sintiéndose solo, hasta que encuentra su manada.

shark-city

Indicación: La ciudad de Nueva York está sumergida como la Atlántida. Peces, ballenas, tortugas marinas y tiburones nadan por las calles de Nueva York.

puppies-snow

Indicación: Una camada de cachorros de golden retriever jugando en la nieve. Sus cabezas sobresalen de la nieve, cubiertas de nieve.

El modelo actual aún tiene margen de mejora. Puede tener dificultades para simular la física de una escena compleja y puede no comprender casos específicos de causa y efecto (por ejemplo: una galleta puede no mostrar una marca después de que un personaje la muerda). El modelo también puede confundir detalles espaciales incluidos en un mensaje, como distinguir la izquierda de la derecha, o tener dificultades con descripciones precisas de eventos que se desarrollan a lo largo del tiempo, como trayectorias específicas de la cámara.

treadmill

Indicación: Escena de impresión de pasos de una persona corriendo, película cinematográfica filmada en 35 mm.

Debilidad: Sora a veces crea movimientos físicamente inverosímiles.

wolf-pups

Indicación: Cinco cachorros de lobo gris retozan y se persiguen unos a otros por un camino de grava remoto, rodeado de hierba. Los cachorros corren y saltan, se persiguen y se muerden entre sí, jugando.

Debilidad: Los animales o las personas pueden aparecer espontáneamente, especialmente en escenas que contienen muchas entidades.

basketball

Indicación: El balón de baloncesto pasa por el aro y luego explota.Indicación: El balón de baloncesto pasa por el aro y luego explota.

Debilidad: Un ejemplo de modelado físico inexacto y “transformación” antinatural de objetos.

archeologists

Indicación: Los arqueólogos descubren una silla de plástico genérica en el desierto, excavándola y quitándole el polvo con gran cuidado.

Debilidad: En este ejemplo, Sora no logra modelar la silla como un objeto rígido, lo que genera interacciones físicas inexactas.

birthday

Indicación: Una abuela con el pelo gris perfectamente peinado se encuentra detrás de un colorido pastel de cumpleaños con numerosas velas en una mesa de comedor de madera; su expresión es de pura alegría y felicidad, con un brillo feliz en sus ojos. Se inclina hacia adelante y apaga las velas con un suave soplo; el pastel tiene glaseado rosa y chispas y las velas dejan de parpadear; la abuela viste una blusa celeste adornada con estampados florales; se puede ver a varios amigos y familiares felices sentados a la mesa celebrando, fuera de foco. La escena está bellamente capturada, cinematográfica, mostrando una vista de 3/4 de la abuela y el comedor. Los tonos de color cálidos y la iluminación suave realzan el estado de ánimo.

Debilidad: Simular interacciones complejas entre objetos y múltiples personajes suele ser un desafío para el modelo, lo que a veces da lugar a generaciones humorísticas.

Seguridad

Tomaremos varias medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI. Estamos trabajando con miembros del equipo rojo (expertos en áreas como desinformación, contenido de odio y prejuicios) que probarán el modelo de manera adversa.

También estamos creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede determinar cuándo Sora generó un video. Planeamos incluir metadatos de C2PA .(se abre en una nueva ventana)en el futuro si implementamos el modelo en un producto OpenAI.

Además de desarrollar nuevas técnicas para prepararnos para el despliegue, estamos aprovechando los métodos de seguridad existentes .(se abre en una nueva ventana)que construimos para nuestros productos que utilizan DALL·E 3, que también son aplicables a Sora.

Por ejemplo, una vez que se incluye un producto OpenAI, nuestro clasificador de texto verificará y rechazará los mensajes de entrada de texto que infrinjan nuestras políticas de uso, como aquellos que solicitan violencia extrema, contenido sexual, imágenes que incitan al odio, la imagen de celebridades o la dirección IP de otras personas. También hemos desarrollado clasificadores de imágenes robustos que se utilizan para revisar los fotogramas de cada video generado para ayudar a garantizar que se adhiera a nuestras políticas de uso, antes de mostrarlo al usuario.

Trabajamos con responsables de políticas, educadores y artistas de todo el mundo para entender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología. A pesar de las extensas investigaciones y pruebas, no podemos predecir todas las formas beneficiosas en que las personas usarán nuestra tecnología, ni todas las formas en que la abusarán. Por eso creemos que aprender del uso en el mundo real es un componente fundamental para crear y lanzar sistemas de IA cada vez más seguros a lo largo del tiempo.

window-dog

Indicación: La cámara enfoca directamente los coloridos edificios de Burano, Italia. Un adorable dálmata mira a través de una ventana de un edificio en la planta baja. Mucha gente camina y anda en bicicleta por las calles de los canales frente a los edificios.

surfing-otter

Indicación: Una adorable nutria feliz se para con confianza sobre una tabla de surf con un chaleco salvavidas amarillo, navegando a lo largo de aguas tropicales turquesas cerca de exuberantes islas tropicales, estilo de arte de renderizado digital 3D.

chameleon

Indicación: Esta fotografía en primer plano de un camaleón muestra su sorprendente capacidad para cambiar de color. El fondo está difuminado, lo que llama la atención sobre la llamativa apariencia del animal.

corgi-selfie

Indicación: Un corgi vloggeando sobre sí mismo en el tropical Maui.

adventure-cat

Indicación: Se ve a un gato atigrado blanco y naranja corriendo alegremente por un jardín denso, como si persiguiera algo. Sus ojos están abiertos y felices mientras trota hacia adelante, explorando las ramas, flores y hojas mientras camina. El camino es angosto mientras se abre paso entre todas las plantas. La escena está capturada desde un ángulo a nivel del suelo, siguiendo al gato de cerca, lo que brinda una perspectiva baja e íntima. La imagen es cinematográfica con tonos cálidos y una textura granulada. La luz del día dispersa entre las hojas y las plantas de arriba crea un contraste cálido, acentuando el pelaje naranja del gato. La toma es clara y nítida, con una profundidad de campo reducida.

santorini

Indicación: Vista aérea de Santorini durante la hora azul, que muestra la impresionante arquitectura de los edificios blancos de las Cícladas con cúpulas azules. Las vistas de la caldera son impresionantes y la iluminación crea una atmósfera hermosa y serena.

construction-site

Indicación: Imagen panorámica de un sitio de construcción lleno de trabajadores, equipos y maquinaria pesada.

angry-cloud

Indicación: Una nube gigante y elevada con forma de hombre se cierne sobre la Tierra. El hombre-nube lanza rayos hacia la Tierra.

city-dogs

Indicación: Un samoyedo y un golden retriever corren juguetonamente por una ciudad futurista de neón por la noche. Las luces de neón que emiten los edificios cercanos brillan en su pelaje.

train-on-bridge

Indicación: El viaducto de Glenfinnan es un puente ferroviario histórico en Escocia, Reino Unido, que cruza la línea de las Tierras Altas del Oeste entre las ciudades de Mallaig y Fort William. Es una vista impresionante cuando un tren de vapor sale del puente y viaja sobre el viaducto cubierto de arcos. El paisaje está salpicado de exuberante vegetación y montañas rocosas, lo que crea un pintoresco telón de fondo para el viaje en tren. El cielo es azul y brilla el sol, lo que lo convierte en un hermoso día para explorar este majestuoso lugar.

Técnicas de investigación

Sora es un modelo de difusión que genera un video comenzando con uno que parece ruido estático y lo transforma gradualmente eliminando el ruido a lo largo de muchos pasos.

Sora es capaz de generar videos completos de una sola vez o extender los videos generados para hacerlos más largos. Al brindarle al modelo la posibilidad de prever muchos fotogramas a la vez, hemos resuelto un problema difícil: asegurarnos de que un sujeto permanezca igual incluso cuando desaparece de la vista temporalmente.

De manera similar a los modelos GPT, Sora utiliza una arquitectura de transformador, lo que permite un rendimiento de escalamiento superior.

Representamos videos e imágenes como conjuntos de unidades de datos más pequeñas llamadas parches, cada uno de los cuales es similar a un token en GPT. Al unificar la forma en que representamos los datos, podemos entrenar transformadores de difusión en una gama más amplia de datos visuales de lo que era posible antes, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.

Sora se basa en investigaciones anteriores sobre los modelos DALL·E y GPT. Utiliza la técnica de recaptación de DALL·E 3, que implica generar subtítulos muy descriptivos para los datos de entrenamiento visual. Como resultado, el modelo puede seguir las instrucciones de texto del usuario en el video generado con mayor fidelidad.

Además de poder generar un vídeo únicamente a partir de instrucciones de texto, el modelo puede tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención a los pequeños detalles. El modelo también puede tomar un vídeo existente y ampliarlo o rellenar los fotogramas faltantes. 

Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que creemos será un hito importante para lograr la IAG. OpenAI

Artículos relacionados

Scroll al inicio