Nuestro modelo de video de última generación es más preciso, realista y controlable que los sistemas anteriores. Además, incluye diálogos y efectos de sonido sincronizados. Crea con él en la nueva app de Sora.
Hoy lanzamos Sora 2, nuestro modelo insignia de generación de video y audio.
El modelo original de Sora , de febrero de 2024, marcó, en muchos sentidos, el momento GPT-1 para el vídeo: la primera vez que la generación de vídeo empezó a parecer funcional, y comportamientos simples como la permanencia de los objetos surgieron al ampliar la computación previa al entrenamiento. Desde entonces, el equipo de Sora se ha centrado en entrenar modelos con capacidades de simulación del mundo más avanzadas. Creemos que estos sistemas serán cruciales para entrenar modelos de IA que comprendan a fondo el mundo físico. Un hito importante para ello es dominar el preentrenamiento y el posentrenamiento con datos de vídeo a gran escala, que se encuentran en sus primeras etapas en comparación con el lenguaje.
Indicación: una patinadora artística realiza un triple eje con un gato en la cabeza.
Con Sora 2, nos lanzamos directamente a lo que creemos que podría ser el punto culminante del GPT-3.5 en vídeo. Sora 2 puede hacer cosas excepcionalmente difíciles, y en algunos casos, imposibles, para los modelos de generación de vídeo anteriores: rutinas de gimnasia olímpica, volteretas hacia atrás en una tabla de paddle surf que modelan con precisión la dinámica de flotabilidad y rigidez, y triples ejes mientras un gato se agarra con todas sus fuerzas.
Indicación: un chico hace una voltereta hacia atrás
Los modelos de video anteriores son demasiado optimistas: transforman objetos y deforman la realidad para ejecutar correctamente una instrucción de texto. Por ejemplo, si un jugador de baloncesto falla un tiro, el balón puede teletransportarse espontáneamente al aro. En Sora 2, si un jugador de baloncesto falla un tiro, rebota en el tablero. Curiosamente, los «errores» que comete el modelo con frecuencia parecen ser errores del agente interno que Sora 2 modela implícitamente; aunque sigue siendo imperfecto, obedece mejor las leyes de la física que los sistemas anteriores. Esta es una capacidad fundamental para cualquier simulador de mundos útil: debe ser capaz de modelar el fracaso, no solo el éxito.
El modelo también supone un gran avance en controlabilidad, capaz de seguir instrucciones complejas que abarcan múltiples tomas, manteniendo con precisión el estado del mundo. Destaca en estilos realistas, cinematográficos y anime.
Indicación: Los vikingos van a la guerra: botadura en el mar del Norte (10.0s, luz diurna invernal fresca / principios de la Edad Media)…
Como sistema de generación de video y audio de propósito general, es capaz de crear sofisticados paisajes sonoros de fondo, diálogos y efectos de sonido con un alto grado de realismo.
Indicación: Dos exploradores de montaña con brillantes cascos técnicos, rostros cubiertos de hielo y ojos entrecerrados con urgencia gritan en la nieve, uno a la vez.
También puedes inyectar directamente elementos del mundo real en Sora 2. Por ejemplo, al observar un video de uno de nuestros compañeros, el modelo puede insertarlo en cualquier entorno generado por Sora con una representación precisa de su apariencia y voz. Esta función es muy general y funciona con cualquier humano, animal u objeto.
Indicación: Pie Grande es muy amable con él, un poco demasiado amable, como extrañamente amable. Pie Grande quiere pasar tiempo con él, pero quiere pasar demasiado tiempo con él.
El modelo está lejos de ser perfecto y comete muchos errores, pero es una validación de que ampliar aún más las redes neuronales en datos de video nos acercará a simular la realidad.
Despliegue de Sora 2
En el camino hacia sistemas de simulación e inteligencia artificial de propósito general que puedan funcionar en el mundo físico, creemos que la gente puede divertirse mucho con los modelos que estamos construyendo a lo largo del camino.
Empezamos a experimentar con esta función de «súbete» hace varios meses en el equipo de Sora, y nos encantó. Parecía una evolución natural de la comunicación: de los mensajes de texto a los emojis, las notas de voz y esto.
Hoy lanzamos una nueva app social para iOS llamada «Sora», con tecnología de Sora 2. Dentro de la app, puedes crear, remezclar las generaciones de los demás, descubrir nuevos videos en un feed de Sora personalizable y aparecer tú mismo o tus amigos mediante cameos . Con los cameos, puedes aparecer directamente en cualquier escena de Sora con una fidelidad excepcional tras una breve grabación de video y audio en la app para verificar tu identidad y capturar tu imagen.
La semana pasada, lanzamos la aplicación internamente para todo OpenAI. Nuestros compañeros ya nos han dicho que están haciendo nuevos amigos en la empresa gracias a esta función. Creemos que una aplicación social basada en esta función de «cameos» es la mejor manera de experimentar la magia de Sora 2.
Lanzamiento responsable
Las preocupaciones sobre el doomscrolling, la adicción, el aislamiento y los feeds optimizados para la vida real son prioritarias: esto es lo que estamos haciendo al respecto.
Ofrecemos a los usuarios las herramientas y la opción de controlar lo que ven en su feed . Utilizando los amplios modelos de lenguaje existentes de OpenAI, hemos desarrollado una nueva clase de algoritmos de recomendación que pueden configurarse mediante lenguaje natural. También contamos con mecanismos integrados para sondear periódicamente a los usuarios sobre su bienestar y ofrecerles la opción de ajustar su feed de forma proactiva.
De forma predeterminada, te mostramos contenido con un fuerte sesgo hacia las personas que sigues o con las que interactúas, y priorizamos los videos que la modelo cree que es más probable que uses como inspiración para tus propias creaciones. No optimizamos el tiempo que pasas en el feed, y diseñamos la aplicación específicamente para maximizar la creación , no el consumo. Puedes encontrar más detalles en nuestra Filosofía del Feed .
Esta aplicación está diseñada para usarla con tus amigos . La gran mayoría de los usuarios que la han probado afirman que los cameos son lo que la hace diferente y divertida. Tienes que probarla para entenderla, pero es una forma nueva y única de comunicarte con la gente. La estamos lanzando como una aplicación por invitación para asegurarnos de que puedas participar con tus amigos. En un momento en que las principales plataformas se están alejando del gráfico social, creemos que los cameos fortalecerán la comunidad.
Proteger el bienestar de los adolescentes es importante para nosotros. Estamos implementando límites predeterminados para el número de generaciones que los adolescentes pueden ver al día en el feed, y también estamos implementando permisos más estrictos para los cameos en este grupo. Además de nuestras herramientas de seguridad automatizadas, estamos ampliando nuestros equipos de moderadores humanos para revisar rápidamente los casos de acoso si surgen. Lanzamos el control parental de Sora a través de ChatGPT para que los padres puedan anular los límites de desplazamiento infinito, desactivar la personalización del algoritmo y administrar la configuración de los mensajes directos.
Con los cameos, tienes el control total de tu imagen con Sora. Solo tú decides quién puede usar tu cameo y puedes revocar el acceso o eliminar cualquier video que lo incluya en cualquier momento. Puedes ver los videos que contienen cameos tuyos, incluidos los borradores creados por otros usuarios, en cualquier momento.
Hemos abordado muchos temas de seguridad con esta aplicación: el consentimiento para el uso de la imagen, la procedencia, la prevención de la generación de contenido dañino y mucho más. Consulta nuestro documento de seguridad de Sora 2 para obtener más información.
Muchos de los problemas con otras aplicaciones se deben a que el modelo de monetización incentiva decisiones contrarias al bienestar del usuario. De forma transparente, nuestro único plan actual es ofrecer a los usuarios la opción de pagar una cantidad para generar un video adicional si la demanda es excesiva en relación con el cómputo disponible. A medida que la aplicación evolucione, comunicaremos abiertamente cualquier cambio en nuestro enfoque aquí, manteniendo el bienestar del usuario como nuestro principal objetivo.
Estamos al principio de este viaje, pero con todas las poderosas maneras de crear y remezclar contenido con Sora 2, vemos esto como el comienzo de una era completamente nueva para las experiencias cocreativas. Somos optimistas de que esta será una plataforma más saludable para el entretenimiento y la creatividad en comparación con lo que está disponible actualmente. ¡Esperamos que lo pasen bien! 🙂
Disponibilidad de Sora 2 y qué viene después
La aplicación Sora para iOS iOS(se abre en una nueva ventana)Ya está disponible para descargar. Puedes registrarte en la aplicación para recibir una notificación push cuando se abra el acceso a tu cuenta. Hoy iniciamos el lanzamiento inicial en EE . UU. y Canadá con la intención de expandirnos rápidamente a otros países. Tras recibir la invitación, también podrás acceder a Sora 2 a través de sora.com. .(se abre en una nueva ventana)Sora 2 estará disponible inicialmente de forma gratuita, con generosos límites iniciales para que los usuarios puedan explorar libremente sus capacidades, aunque aún están sujetas a limitaciones de computación. Los usuarios de ChatGPT Pro también podrán usar nuestro modelo experimental de Sora 2 Pro de mayor calidad en sora.com .(se abre en una nueva ventana)(y pronto también en la app de Sora). También planeamos lanzar Sora 2 en la API. Sora 1 Turbo seguirá disponible, y todo lo que hayas creado seguirá disponible en tu sora.com .(se abre en una nueva ventana)biblioteca.
Los modelos de video están mejorando rápidamente. Los simuladores de mundo de propósito general y los agentes robóticos transformarán radicalmente la sociedad y acelerarán el progreso humano. Sora 2 representa un avance significativo hacia ese objetivo. En consonancia con la misión de OpenAI, es importante que la humanidad se beneficie de estos modelos a medida que se desarrollan. Creemos que Sora traerá mucha alegría, creatividad y conexión al mundo.
Objetivo principal y elementos visuales
Primera lectura: un dragón cortando agujas de hielo dentadas, vórtices en las puntas de las alas desprendiendo espuma; segunda lectura: la lámina fracturada del glaciar cayendo hacia un fiordo de cobalto, con un borde de sol ámbar besando la escarcha en las escamas; la expresión dice calma depredadora / poder sin esfuerzo.
Formato y apariencia
5,0 s; 4K; obturador de 180°; emulación de sensor digital de gran formato con microcontraste nítido; grano muy fino; halo contenido en los destellos de la nieve; sin trama de puerta.
Lentes y filtración
Hero: Esférico de 50 mm en plataforma aérea giroestabilizada montada en el morro (seguimiento paralelo con ligero arco hacia adentro). Filtración: Black Pro-Mist 1/8; polarizador circular ajustado para atenuar el reflejo de la nieve, conservando el brillo especular.
Grado/Paleta
Aspectos destacados: blanco hielo limpio con una caída fría; medios: glaciar azul acero y aire cian pálido; sombras: pizarra/verde azulado con detalle de grietas preservado; borde ámbar cálido en los bordes del dragón para separación; especulares ajustados en escarcha/escama.
Iluminación y atmósfera
El sol bajo al final de la tarde cruza la clave; el viento catabático levanta espuma en forma de ventisca; una fina neblina helada crea profundidad; ráfagas intermitentes de polvo de hielo en la estela; un tenue vapor de aliento del dragón al hacer esfuerzo.
Ubicación y encuadre:
imponente campo de serac y cresta afilada como un cuchillo; la cámara sigue la misma velocidad que el dragón a media altitud, las diagonales del glaciar regresan al fiordo; las aletas de hielo del primer plano pasan cerca para generar paralaje; no hay estructuras humanas.
Vestuario/Atrezo/Vehículo: Notas
N/A (criatura). Superficie: crestas córneas mate, placas de escala semiiridiscentes con microescarcha en los bordes delanteros.
Sonido
: cizalladura del viento en alta mar, trueno de las membranas de las alas en cada palada descendente, crujido del hielo cristalino en los seracs, estruendo distante del desprendimiento del glaciar; rápida exhalación/retumbar del dragón: «Rrhh—» (menos de 1 segundo). Sin puntuación: puro asombro diegético.
Lista de tomas optimizadas (1 toma / 5,0 s)
0,0–5,0 — «Carvajal Paralelo» (50 mm, aérea con montura frontal con ligero arco hacia adentro y microimpulso).
Acompañamos al dragón mientras serpentea por un pasillo de agujas de hielo; los vórtices de las puntas de las alas desgarran la nieve en cintas; un fragmento desprendido cae muy abajo, lanzando una nube de polvo; la cámara se acerca (las escamas se leen, el borde ámbar se enciende); entonces, el dragón se inclina hacia el fiordo, con la cola en zigzag, proyectando una sombra que se extiende sobre el glaciar.
Objetivo: Ofrecer una escala mítica con realismo táctil en una sola pasada decisiva: velocidad, masa y frío elemental.
Notas de la cámara (por qué se lee)
Los 50 mm equilibran la presencia de las criaturas y la escala del paisaje sin miniaturizar; la pista paralela + el arco interno venden velocidad y forma; tiempos de microempuje con el recorrido descendente más fuerte para una puntuación de potencia; el polarizador de luz controla el resplandor mientras mantiene el brillo; el sol posterior/de borde esculpe la silueta; las aletas de hielo cercanas brindan señales de velocidad de paralaje.
Acabado
Grano muy fino (~15%); halo mínimo en los especulares de nieve; emulación de impresión suave para mantener los azules creíbles y los negros ricos; dinámica multibanda para retener el golpe del ala sin enmascarar el estruendo del parto; marco de póster: dragón inclinado sobre un serac iluminado por el sol, con espuma fluyendo y un fiordo azul profundo resplandeciente más allá.Mostrar más
OpenAI News. Traducido al español