Desbloqueo de generación de imágenes útiles y valiosas con un modelo multimodal nativo capaz de salidas precisas, precisas y fotorrealistas.
En OpenAI, hemos creído durante mucho tiempo que la generación de imágenes debería ser una capacidad principal de nuestros modelos de lenguaje. Es por eso que weiesve construyó nuestro generador de imágenes más avanzado hasta ahora en GPT‑4o. El resultado— generación de imágenes que no solo es hermoso, sino útil.
Una imagen amplia tomada con un teléfono de una pizarra de vidrio, en una habitación con vistas al Puente de la Bahía. El campo de visión muestra a una mujer escribiendo, luciendo una camiseta con un gran logotipo OpenAI. La escritura a mano se ve natural y un poco desordenada, y vemos el reflejo del fotógrafo.
El texto dice:
(izquierda)
«Transferencia entre Modalidades:
Supongamos que modelamos directamente
p(texto, píxeles, sonido) [ecuación]
con un gran transformador autorregresivo.
Pros:
* generación de imágenes aumentada con vasto conocimiento mundial
* renderizado de texto de siguiente nivel
* aprendizaje nativo en contexto
* pila unificada de post-entrenamiento
Contras:
* variación de la tasa de bits entre modalidades
* cómputo no adaptativo»
(Derecho)
«Arreglos:
* representaciones comprimidas modelo
* componer prioregresivo con un potente decodificador»
En la parte inferior derecha del tablero, dibuja un diagrama:
«tokens -> [transformer] -> [difusion] -> pixels»Leer más

Lo mejor de 8
vista selfie del fotógrafo, mientras se da vuelta a lo alto cinco él

Lo mejor de 8
poesía magnética en una nevera en una casa de mediados de siglo:
Línea 1: «Una imagen»
Línea 2: «vale la pena»
Línea 3: «mil palabras»
Línea 4: «pero a veces»Large gapLine 5: «en el lugar correcto»
Línea 6: «puede elevar»
Línea 7: «su significado.
«El hombre sostiene las palabras «unos pocos» en su mano derecha y las «palabras» en su izquierda.Leer más

Lo mejor de 5
Haga una imagen de una tira de cuatro‑panel, con un poco de relleno alrededor del borde:
Un pequeño caracol está en el mostrador de una llamativa sala de exposición de autos. El vendedor se ha inclinado sobre el escritorio para verlo.
Close‑up en el caracol se ve muy serio. Él dice, “quiero tu auto deportivo más rápido… y quiero que pintes una gran letra ‘Ss en las puertas, el capó y el techo.”
El vendedor se está rascando la cabeza. “Um… podemos hacer eso, pero ¿por qué los Sing?”
Cortar a un rojo borroso rugiendo por la carretera. El auto deportivo está cubierto de Ss gigantes. ¡La gente en la acera está señalando y riendo: “WOW! MIRA ESE S‑CAR GO!”Leer más

Lo mejor de ~2
una infografía que explica el experimento del prisma de Newton con gran detalle

Lo mejor de 3
ahora genere un POV de una persona dibujando este diagrama en su cuaderno, en una mesa redonda de café en el parque cuadrado de Washington

Lo mejor de 2
ahora muestra la misma escena con un joven presumido Isaac Newton sentado a la mesa, con un prisma, demostrando el experimento, sin el cuaderno a la vista

Lo mejor de 4
Generación de imágenes útil
Desde las primeras pinturas rupestres hasta las infografías modernas, los humanos han utilizado imágenes visuales para comunicarse, persuadir y analizar—, no solo para decorar. Los modelos generativos de hoy en día pueden evocar escenas surrealistas e impresionantes, pero luchan con las imágenes del caballo de batalla que las personas usan para compartir y crear información. Desde logotipos hasta diagramas, las imágenes pueden transmitir un significado preciso cuando se aumentan con símbolos que se refieren al lenguaje y la experiencia compartidos.
La generación de imágenes de GPT‑4o sobresale en la representación precisa de texto, siguiendo con precisión las indicaciones, y aprovechando la base de conocimientos inherente de 4oA y el contexto del chat—, incluida la transformación de imágenes cargadas o su uso como inspiración visual. Estas capacidades hacen que sea más fácil crear exactamente la imagen que visualiza, ayudándole a comunicarse de manera más efectiva a través de imágenes y avanzando la generación de imágenes en una herramienta práctica con precisión y potencia.
00:0000:00
00:0000:00
00:0000:00
00:0000:00
00:0000:00
Capacidades mejoradas
Capacitamos a nuestros modelos en la distribución conjunta de imágenes y texto en línea, aprendiendo no solo cómo las imágenes se relacionan con el lenguaje, sino cómo se relacionan entre sí. Combinado con el post-entrenamiento agresivo, el modelo resultante tiene una fluidez visual sorprendente, capaz de generar imágenes que son útiles, consistentes y conscientes del contexto.
Representación de texto
Una imagen vale más que mil palabras, pero a veces generar unas pocas palabras en el lugar correcto puede elevar el significado de una imagen. La capacidad de 4oOs para combinar símbolos precisos con imágenes convierte la generación de imágenes en una herramienta para la comunicación visual.Señales de calleMenúInvitaciónSeñales de calleMenúInvitación
Crea una imagen fotorrealista de dos brujas de unos 20 años (un balayage de ceniza, uno con cabello largo y ondulado) leyendo un letrero de calle.
Contexto:
una calle de la ciudad en una calle aleatoria en Williamsburg, Nueva York con un poste cubierto completamente por numerosas señales detalladas de la calle (por ejemplo, horas de barrido de la calle, permisos de estacionamiento requeridos, clasificaciones de vehículos, reglas de remolque), incluyendo pocas señales ridículas en el medio: (parafrasearlo para hacer estas señales legítimas de la calle)»Estacionamiento de la habitación para Brujas No Permitido en la Zona C» y «Magic Carpet Loading and Unloading Only (15-Minute Limit)» y «Reindeer Parking by Permit Only (Dec 24–25)\n Violators se colocarán en Naughty List.» La señal está a la derecha de una calle. No repita signos. Los signos deben ser realistas.
Personajes:
una bruja sostiene una escoba y la otra tiene una alfombra mágica enrollada. Están en primer plano, hacia atrás ligeramente girados hacia la cámara y la cabeza ligeramente inclinada mientras examinan las señales.
Composición de fondo a primer plano:
calles + autos estacionados + edificios -> letrero de calle -> brujas. Los personajes deben estar más cerca de la cámara que toma la fotoLeer más

Lo mejor de ~8
Estoy abriendo un restaurante de concepto tradicional en Marin llamado Haein. Se centra en los alimentos coreanos cocinados con ingredientes orgánicos frescos de la granja, con un menú giratorio basado en lo que es estacional. Quiero que diseñes una imagen, un menú que incorpore los siguientes elementos del menú, inclínate por el estilo tradicional/rústico mientras lo mantienes sintiéndote exclusivo y elegante. También incluya ilustraciones de cada plato en un elegante estilo de conejo peter. Asegúrese de que todo el texto esté representado correctamente, con un fondo blanco.
(Top)
Doenjang Jjigae (Fermented Soybean Stew) – $18 Doenjang casero con champiñones locales, tofu y verduras de temporada servidas con arroz.
Galbi Jjim (Braised Short Ribs) – $34 Costillas de res alimentadas con pasto locales de cerebro lento con esmalte de pera y ajo negro, tubérculos de temporada y jujube.
Pescado de temporada a la parrilla – Precio de mercado ($22-$30) Todo o filete de pescado local y sostenible a la parrilla sobre carbón, servido con ssam de hoja de perilla y salsas caseras.
Bibimbap – $19 Arroz Heredero con una selección rotativa de verduras frescas de granja, gochujang fermentado en casa y huevo criado en pastos.
Bossam (Heritage Pork Wraps) – $28 Panceta de cerdo cocida lentamente con envolturas de col de napa, kimchi de ostra, perilla y condimentos de temporada.
(Bottom) Postre y bebidas Seasonal Makgeolli (Rice Wine) – $12/vidrio
Sabores rotativos a base de frutas y flores de temporada (persimón, cítricos, flor de saúco, etc.).
Hoddeok (Korean Sweet Pancake) – $9 Pan-frito panqueque relleno de canela con helado de sésamo negro.Leer más

Lo mejor de ~2
foto de una encantadora invitación de boda en un escritorio de madera de buen gusto. La tarjeta es fuerte, con texturas de cáscara de huevo y hermosos estampados, con elegantes decoraciones que representan abstractamente a la pareja integrada con buen gusto en los diseños. Se utiliza la iconografía, pero con moderación y de una manera minimalista.
«Estás cordialmente invitado
a la tan esperada unión de
Imagen
y
Texto
Después de años de coqueteo y colaboración
finalmente se están convirtiendo en uno.
Juntos por fin, en GPT‑4o,
ahora hablan el mismo idioma —
donde un susurro se convierte en una obra maestra
y un mensaje se convierte en una imagen.
Por favor, únete a nosotros para celebrar
este mágico matrimonio multimodal
donde la imaginación no conoce límites.
Fecha: Marzo 25, 2025
Ubicación: chatgpt.com
Código de vestimenta: Píxeles o Prosa
Con amor,
OpenAI»
composición tipográfica perfecta.Leer más

Lo mejor de ~10
Generación de múltiples vueltas
Debido a que la generación de imágenes ahora es nativa de GPT‑4o, puede refinar imágenes a través de una conversación natural. GPT‑4o puede basarse en imágenes y texto en el contexto del chat, asegurando consistencia en todo momento. Por ejemplo, si estás diseñando un personaje de videojuego, la apariencia de las características sigue siendo coherente en múltiples iteraciones a medida que refinas y experimentas.VideojuegoPoema concretoPegatinaVideojuegoPoema concretoPegatina

Dale a este gato un sombrero de detective y un monóculo

Lo mejor de 1
turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography

Best of 1
update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors

Best of 2
create the interface when the player opens the menu and we see the cat’s character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)

Best of 8
credit creator: Manuel Sainsily
poema concreto sobre tarjeta texturizada de cáscara de huevo de lujo
En OpenAI, hemos creído durante mucho tiempo que la generación de imágenes debería ser una capacidad principal de nuestros modelos de lenguaje. Es por eso que weiesve construyó nuestro generador de imágenes más avanzado hasta ahora en GPT‑4o. El resultado: generación de imágenes que no solo es hermosa, sino útil.
Desde las primeras pinturas rupestres hasta las infografías modernas, los humanos han utilizado imágenes visuales para comunicarse, persuadir y analizar, no solo para decorar. Los modelos generativos de hoy en día pueden evocar vistas impresionantes y escenarios surrealistas, pero aún luchan con las imágenes del caballo de batalla que subyacen a cómo se utilizan la mayoría de los datos visuales para compartir y crear información. Desde logotipos hasta diagramas, las imágenes pueden transmitir un significado preciso cuando se aumentan con símbolos que se refieren al lenguaje y la experiencia compartidos.
Con esta nueva capacidad, ChatGPT avanza la generación de imágenes hacia ser una herramienta práctica con precisión y potencia.Leer más

Lo mejor de 8
mostrar esta tarjeta, pero en una sala de diseñadores. tarjeta cerca de la cámara

Lo mejor de 8
¿puedes hacerme un lindo mapache minimalista comiendo una pegatina de fresa? use un borde blanco grueso y un fondo transparente

prueba un estilo minimalista diferente y un mapache gris

awww, ¿puedes agregar una marca de masticación a la fresa y tal vez un lío rojo alrededor de la boca

Instrucción siguiente
La generación de imágenes de GPT‑4ooAs sigue indicaciones detalladas con atención al detalle. Mientras que otros sistemas luchan con ~5-8 objetos, GPT‑4o puede manejar hasta 10-20 objetos diferentes. La unión más estrecha de los objetos a sus rasgos y relaciones permite un mejor control.Objetos organizadosCiudad vacíaCopa de vinoElefante invisibleEcuación matemáticaObjetos organizadosCiudad vacíaCopa de vinoElefante invisibleEcuación matemática
Una imagen cuadrada que contiene una cuadrícula de 4 filas por 4 columnas que contiene 16 objetos sobre un fondo blanco. Ir de izquierda a derecha, de arriba a abajo. Aquí está la lista:
1. una estrella azul
2. triángulo rojo
3. plaza verde
4. círculo rosa
5. reloj de arena naranja
6. signo de infinito púrpura
7. bowtie de lunares en blanco y negro
8. tatyye «42»
9. un gato naranja con una gorra de béisbol negra
10. un mapa con un cofre del tesoro
11. un par de ojos saltones
12. un pulgar hacia arriba emoji
13. un par de tijeras
14. una jirafa azul y blanca
15. la palabra «OpenAI» escrita en cursiva
16. un rayo de color arco irisLeer más

Lo mejor de 5
Times Square en la ciudad de Nueva York por la tarde, sin personas, vehículos o vallas publicitarias iluminadas.

Lo mejor de ~1
cruce de Shibuya sin personas, vehículos o vallas publicitarias iluminadas.

Lo mejor de ~1
muéstrame una copa de vino con solo la gota más pequeña de vino tinto.

Lo mejor de ~1
Necesitamos evidencia de que hay un elefante invisible actualmente presente. Considere lo que un elefante es y hace en el medio ambiente, luego muéstrenos eso, tal vez a mitad de proceso, pero el elefante en sí no se muestra en absoluto

creadora de crédito: Eskcanta
una pizarra que dice las siguientes ecuaciones:
E = mc^2
sqrt(9) = 3
(-b +/- sqrt(b^2 – 4ac)) / 2a

Lo mejor de ~1
Aprendizaje en contexto
GPT‑4o puede analizar y aprender de las imágenes cargadas por el usuario, integrando sin problemas sus detalles en su contexto para informar la generación de imágenes.Vehículo con ruedas triangularesMotosierraMujerEdificioVehículo con ruedas triangularesMotosierraMujerEdificio

- dibuje un diseño para un vehículo con ruedas triangulares, utilizando estas imágenes como referencia.
- etiquete la rueda delantera, la rueda trasera y, en el diagrama, digamos (en tapas pequeñas)
- TRIÁNGULO VEHÍCULO CON RUEDAS. Patente Inglesa. 2025. OPENAI.

Lo mejor de ~16
ahora pon esto en una foto tomada en la ciudad de nueva york.

Lo mejor de ~16
una imagen fotorrealista de una motosierra azul

Lo mejor de 1
haga un anuncio para esta motosierra, de una abuela tallando pavo en la mesa de acción de gracias. agregue un eslogan

Lo mejor de 4

convierte esta escena en una foto. tomada en un dlsr

Lo mejor de ~8

convierte esto en una foto

Lo mejor de ~4
Conocimiento mundial
La generación de imágenes nativas permite a 4o vincular su conocimiento entre texto e imágenes, lo que resulta en un modelo que se siente más inteligente y eficiente.Imagen generada por códigoRecetas de cóctelInfografía meteorológicaGuía de ballenasInstrucciones matchaImagen generada por códigoRecetas de cóctelInfografía meteorológicaGuía de ballenasInstrucciones matcha
Ejemplo de Código (Three.js)
HTML
1
<!DOCTYPE html>
2
<html lang="en">
3
<head>
4
<meta charset="UTF-8" />
5
<title>OpenAI Banner</title>
6
<style>
7
body { margin: 0; overflow: hidden; }
8
canvas { display: block; }
9
</style>
10
</head>
11
<body>
12
<script type="module">
13
import * asTHREEfrom'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';
14
import { OrbitControls } from'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';
15
import { FontLoader } from'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';
16
import { TextGeometry } from'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';
17
18
const scene = newTHREE.Scene();
19
const camera = newTHREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);
20
const renderer = newTHREE.WebGLRenderer({ antialias: true });
21
renderer.setSize(window.innerWidth, window.innerHeight);
22
document.body.appendChild(renderer.domElement);
23
24
// Lighting
25
const light = newTHREE.AmbientLight(0xffffff, 1);
26
scene.add(light);
27
28
const dirLight = newTHREE.DirectionalLight(0xffffff, 1);
29
dirLight.position.set(0, 5, 10);
30
scene.add(dirLight);
31
32
// Camera position
33
camera.position.z = 20;
34
35
// Controls
36
const controls = newOrbitControls(camera, renderer.domElement);
37
38
// Banner background
39
const bannerGeometry = newTHREE.PlaneGeometry(20, 10);
40
const bannerMaterial = newTHREE.MeshStandardMaterial({ color: 0x1a1a1a });
41
const banner = newTHREE.Mesh(bannerGeometry, bannerMaterial);
42
scene.add(banner);
43
44
// OpenAI Logo texture (placeholder)
45
const loader = newTHREE.TextureLoader();
46
loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {
47
const logoGeometry = newTHREE.PlaneGeometry(4, 4);
48
const logoMaterial = newTHREE.MeshBasicMaterial({ map: texture, transparent: true });
49
const logo = newTHREE.Mesh(logoGeometry, logoMaterial);
50
logo.position.set(-5, 0, 0.1); // Slightly in front of the banner
51
scene.add(logo);
52
});
53
54
// Load font and add text
55
const fontLoader = newFontLoader();
56
fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {
57
const textGeometry = newTextGeometry("I am 4-o", {
58
font: font,
59
size: 1,
60
height: 0.2,
61
curveSegments: 12,
62
bevelEnabled: true,
63
bevelThickness: 0.02,
64
bevelSize: 0.02,
65
bevelOffset: 0,
66
bevelSegments: 5
67
});
68
69
textGeometry.center();
70
71
const textMaterial = newTHREE.MeshStandardMaterial({ color: 0x00ffcc });
72
const textMesh = newTHREE.Mesh(textGeometry, textMaterial);
73
textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo
74
scene.add(textMesh);
75
});
76
77
// Resize handler
78
window.addEventListener('resize', () => {
79
camera.aspect = window.innerWidth / window.innerHeight;
80
camera.updateProjectionMatrix();
81
renderer.setSize(window.innerWidth, window.innerHeight);
82
});
83
84
// Render loop
85
functionanimate() {
86
requestAnimationFrame(animate);
87
controls.update();
88
renderer.render(scene, camera);
89
}
90
91
animate();
92
</script>
93
</body>
94
</html>
haz una imagen de lo que esto significa para ti

Hazme un diagrama fotorrealista filmado profesionalmente de los cócteles más vendidos en mi bar con recetas etiquetadas en cada bebida.
ponga las recetas en tarjetas escritas a mano frente a cada bebida.
las cartas son marrones y el texto es negro.
el fondo es blanco
El título es «4 cócteles más populares»Leer más

Lo mejor de 1
haga una infografía visual que describa por qué SF está tan brumoso

Lo mejor de 3
cree un póster educativo de diferentes tipos de ballenas en un estilo de acuarela efervescente. haga que el fondo sea blanco puro.

Lo mejor de 3
haz un risógrafo muy colorido sobre cómo hacer matcha

Lo mejor de 3
Fotorrealismo y estilo
La capacitación en imágenes que reflejan una gran variedad de estilos de imagen permite que el modelo cree o transforme imágenes de manera convincente.

Limitaciones
Nuestro modelo no es perfecto. Somos conscientes de las múltiples limitaciones en este momento que trabajaremos para abordar a través de mejoras en el modelo después del lanzamiento inicial.RecorteAlucinacionesAltos problemas de uniónGráficos precisosRepresentación de texto multilingüePrecisión de ediciónInformación densa con texto pequeñoRecorteAlucinacionesAltos problemas de uniónGráficos precisosRepresentación de texto multilingüePrecisión de ediciónInformación densa con texto pequeño

Weweve notó que GPT‑4o ocasionalmente puede recortar imágenes más largas, como carteles, con demasiada fuerza, especialmente cerca de la parte inferior.

Al igual que nuestros otros modelos de texto, la generación de imágenes también puede componer información, especialmente en indicaciones de bajo contexto.

Al generar imágenes que se basan en su base de conocimientos, puede tener dificultades para representar con precisión más de 10-20 conceptos distintos a la vez, como una tabla periódica completa.Mostrar más


El modelo a veces lucha conrenderizadoidiomas no latinos, y los personajes pueden ser inexactos o alucinados, especialmente con más complejidad.Mostrar más

Weizve notó que las solicitudes para editar partes específicas de una generación de imágenes, como los errores tipográficos, no siempre son efectivas y también pueden alterar otras partes de la imagen de una manera que no se solicitó o introducir más errores. Actualmente, Weirre está trabajando para introducir una mayor precisión de edición en el modelo.
Weir es consciente de un error en el que el modelo lucha por mantener la consistencia de las ediciones en las caras de las cargas de los usuarios, pero espera que esto se solucione dentro de la semana.Mostrar más

Se sabe que el modelo tiene dificultades cuando se le pide que proporcione información detallada en un tamaño muy pequeño.
Seguridad
En línea con nuestra Especificación Modelo, nuestro objetivo es maximizar la libertad creativa al apoyar casos de uso valiosos como el desarrollo de juegos, la exploración histórica y la educación, mientras mantenemos estándares de seguridad sólidos. Al mismo tiempo, sigue siendo tan importante como siempre bloquear las solicitudes que violan esos estándares. A continuación se presentan evaluaciones de áreas de riesgo adicionales en las que estamos trabajando para permitir contenido seguro y de alta utilidad y apoyar una expresión creativa más amplia para los usuarios.
Procedencia a través de C2PA y búsqueda interna reversibleTodas las imágenes generadas vienen con metadatos C2PA, que identificarán una imagen como proveniente de GPT‑4o, para proporcionar transparencia. Weiosve también creó una herramienta de búsqueda interna que utiliza atributos técnicos de generaciones para ayudar a verificar si el contenido proviene de nuestro modelo.
Bloqueando las cosas malasWeirre continúa bloqueando las solicitudes de imágenes generadas que pueden violar nuestras políticas de contenido, como materiales de abuso sexual infantil y falsificaciones sexuales. Cuando las imágenes de personas reales están en contexto, hemos aumentado las restricciones con respecto a qué tipo de imágenes se pueden crear, con salvaguardas particularmente sólidas en torno a la desnudez y la violencia gráfica. Al igual que con cualquier lanzamiento, la seguridad nunca termina y es más bien un área de inversión continua. A medida que aprendamos más sobre el uso de este modelo en el mundo real, ajustaremos nuestras políticas en consecuencia.
Para obtener más información sobre nuestro enfoque, visite la generación de imágenes anexo a la tarjeta del sistema GPT‑4o.
Usar el razonamiento para impulsar la seguridadSimilar a nuestro alineación deliberativa weizing ha entrenado a un LLM de razonamiento para trabajar directamente a partir de especificaciones de seguridad escritas e interpretables por el hombre. Utilizamos este razonamiento LLM durante el desarrollo para ayudarnos a identificar y abordar las ambigüedades en nuestras políticas. Junto con nuestros avances multimodales y las técnicas de seguridad existentes desarrolladas para ChatGPT y Sora, esto nos permite moderado tanto el texto de entrada como las imágenes de salida en contra de nuestras políticas.
Acceso y disponibilidad
la generación de imágenes 4O se lanzará a partir de hoy a los usuarios Plus, Pro, Team y Free como el generador de imágenes predeterminado en ChatGPT, con acceso próximamente a Enterprise y Edu. También está disponible para usar en Sora. Para aquellos que tienen un lugar especial en sus corazones para DALL anE, aún se puede acceder a través de un GPT DALL blee dedicado.
Los desarrolladores pronto podrán generar imágenes con GPT‑4o a través de la API, y el acceso se implementará en las próximas semanas.
Crear y personalizar imágenes es tan simple como chatear con GPT‑4o, solo describa lo que necesita, incluidos detalles específicos como la relación de aspecto, los colores exactos con códigos hexadecimales o un fondo transparente. Debido a que este modelo crea imágenes más detalladas, las imágenes tardan más en renderizarse, a menudo hasta un minuto.
](https://i0.wp.com/images.ctfassets.net/kftzwdyauwt9/4mDKmV3ex9OT8wyAFGDAQS/1b0e1baacb80125e1f92e66dbdf1e32a/Alex_Duffy1.png?w=1200&ssl=1)
Reproducción de livestream
https://www.youtube-nocookie.com/embed/2f3K43FHRKo?autoplay=0&mute=0&controls=1&origin=https%3A%2F%2Fopenai.com&playsinline=1&showinfo=0&rel=0&iv_load_policy=3&modestbranding=1&enablejsapi=1&hl=en-US&widgetid=1&forigin=https%3A%2F%2Fopenai.com%2Findex%2Fintroducing-4o-image-generation%2F&aoriginsup=1&gporigin=https%3A%2F%2Fwww.google.com%2F&vf=1
Reproducir video
Autor
Liderazgo
Gabriel Goh: Generación de Imagen
Jackie Shannon: Producto ChatGPT
Zhong Mengchao, Wayne Chang: ChatGPT Ingeniería
Rohan Sahai: Producto e Ingeniería de Sora
Brendan Quinn, Tomer Kaftan: Inferencia
Prafulla Dhariwal: Organización Multimodal
Investigación
Investigación Fundacional
Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal
Investigación Core
Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra
Colaboradores de Investigación
Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song
Comportamiento Modelo
Laurentia Romaní
Organización Multimodal
Andrew Gibiansky, Yang Lu
Datos
Líderes de Datos
Gildas Chabot, James Park Lennon
Datos
Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian
Moderadores
Hazel Byrne, Jennifer Luckenbill, Mariano López
Asesores de Datos Humanos
Ouyang Largo
Escalado
Inferencia Leads
Brendan Quinn, Tomer Kaftan
Inferencia
Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh
Aplicado
ChatGPT Líder de Producto
Shannon Jackie
ChatGPT Ingeniería Lidera
Zhong Mengchao, Wayne Chang
Diseño de Producto Lead
Chan Matt
Ciencia de Datos
Hao Xiaolin
Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian
Sora
Sora Líderes de Producto
Rohan Sahai, Wesam Manassra
Producto e Ingeniería de Sora
Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra
Seguridad
Plomo de Seguridad
Somay Jain
Seguridad
Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Pérez, Sam Toizer, Sandhini Agarwal, Troy Peterson
Estrategia
Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll
Marketing y Comms
Comms y Marketing Leads
Minnia Feng, Natalie Summers, Taya Christianson
Comms
Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor
Diseño y Creativo
Lidera
Kendra Rimbach, Veit Moeller
Diseño
Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz
Gracias Especiales
Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco
OpenAI News. Traducido al español