El Portal de las Tecnologías para la Innovación

Presentamos 4o Image Generation

Desbloqueo de generación de imágenes útiles y valiosas con un modelo multimodal nativo capaz de salidas precisas, precisas y fotorrealistas.

En OpenAI, hemos creído durante mucho tiempo que la generación de imágenes debería ser una capacidad principal de nuestros modelos de lenguaje. Es por eso que weiesve construyó nuestro generador de imágenes más avanzado hasta ahora en GPT‑4o. El resultado— generación de imágenes que no solo es hermoso, sino útil.

Una imagen amplia tomada con un teléfono de una pizarra de vidrio, en una habitación con vistas al Puente de la Bahía. El campo de visión muestra a una mujer escribiendo, luciendo una camiseta con un gran logotipo OpenAI. La escritura a mano se ve natural y un poco desordenada, y vemos el reflejo del fotógrafo.

El texto dice:

(izquierda)
«Transferencia entre Modalidades:

Supongamos que modelamos directamente
p(texto, píxeles, sonido) [ecuación]
con un gran transformador autorregresivo.

Pros:
* generación de imágenes aumentada con vasto conocimiento mundial
* renderizado de texto de siguiente nivel
* aprendizaje nativo en contexto
* pila unificada de post-entrenamiento

Contras:
* variación de la tasa de bits entre modalidades
* cómputo no adaptativo»

(Derecho)
«Arreglos:
* representaciones comprimidas modelo
* componer prioregresivo con un potente decodificador»

En la parte inferior derecha del tablero, dibuja un diagrama:
«tokens -> [transformer] -> [difusion] -> pixels»Leer más

oai_generación de imágenes_whiteboard1

Lo mejor de 8

vista selfie del fotógrafo, mientras se da vuelta a lo alto cinco él

oai_generación de imágenes_whiteboard2

Lo mejor de 8

poesía magnética en una nevera en una casa de mediados de siglo:

Línea 1: «Una imagen»
Línea 2: «vale la pena»
Línea 3: «mil palabras»
Línea 4: «pero a veces»Large gapLine 5: «en el lugar correcto»
Línea 6: «puede elevar»
Línea 7: «su significado.

«El hombre sostiene las palabras «unos pocos» en su mano derecha y las «palabras» en su izquierda.Leer más

imagen de héroe 2 imágenes vale más que mil palabras

Lo mejor de 5

Haga una imagen de una tira de cuatro‑panel, con un poco de relleno alrededor del borde:

Un pequeño caracol está en el mostrador de una llamativa sala de exposición de autos. El vendedor se ha inclinado sobre el escritorio para verlo.

Close‑up en el caracol se ve muy serio. Él dice, “quiero tu auto deportivo más rápido… y quiero que pintes una gran letra ‘Ss en las puertas, el capó y el techo.”

El vendedor se está rascando la cabeza. “Um… podemos hacer eso, pero ¿por qué los Sing?”

Cortar a un rojo borroso rugiendo por la carretera. El auto deportivo está cubierto de Ss gigantes. ¡La gente en la acera está señalando y riendo: “WOW! MIRA ESE S‑CAR GO!”Leer más

ChatGPT Imagen Mar 24, 2025, 08 49 15 AM

Lo mejor de ~2

una infografía que explica el experimento del prisma de Newton con gran detalle

newtons1

Lo mejor de 3

ahora genere un POV de una persona dibujando este diagrama en su cuaderno, en una mesa redonda de café en el parque cuadrado de Washington

newtons2

Lo mejor de 2

ahora muestra la misma escena con un joven presumido Isaac Newton sentado a la mesa, con un prisma, demostrando el experimento, sin el cuaderno a la vista

newtons3

Lo mejor de 4

Generación de imágenes útil

Desde las primeras pinturas rupestres hasta las infografías modernas, los humanos han utilizado imágenes visuales para comunicarse, persuadir y analizar—, no solo para decorar. Los modelos generativos de hoy en día pueden evocar escenas surrealistas e impresionantes, pero luchan con las imágenes del caballo de batalla que las personas usan para compartir y crear información. Desde logotipos hasta diagramas, las imágenes pueden transmitir un significado preciso cuando se aumentan con símbolos que se refieren al lenguaje y la experiencia compartidos.

La generación de imágenes de GPT‑4o sobresale en la representación precisa de texto, siguiendo con precisión las indicaciones, y aprovechando la base de conocimientos inherente de 4oA y el contexto del chat—, incluida la transformación de imágenes cargadas o su uso como inspiración visual. Estas capacidades hacen que sea más fácil crear exactamente la imagen que visualiza, ayudándole a comunicarse de manera más efectiva a través de imágenes y avanzando la generación de imágenes en una herramienta práctica con precisión y potencia.

00:0000:00

00:0000:00

00:0000:00

00:0000:00

00:0000:00

Capacidades mejoradas

Capacitamos a nuestros modelos en la distribución conjunta de imágenes y texto en línea, aprendiendo no solo cómo las imágenes se relacionan con el lenguaje, sino cómo se relacionan entre sí. Combinado con el post-entrenamiento agresivo, el modelo resultante tiene una fluidez visual sorprendente, capaz de generar imágenes que son útiles, consistentes y conscientes del contexto.

Representación de texto

Una imagen vale más que mil palabras, pero a veces generar unas pocas palabras en el lugar correcto puede elevar el significado de una imagen. La capacidad de 4oOs para combinar símbolos precisos con imágenes convierte la generación de imágenes en una herramienta para la comunicación visual.Señales de calleMenúInvitaciónSeñales de calleMenúInvitación

Crea una imagen fotorrealista de dos brujas de unos 20 años (un balayage de ceniza, uno con cabello largo y ondulado) leyendo un letrero de calle.

Contexto:
una calle de la ciudad en una calle aleatoria en Williamsburg, Nueva York con un poste cubierto completamente por numerosas señales detalladas de la calle (por ejemplo, horas de barrido de la calle, permisos de estacionamiento requeridos, clasificaciones de vehículos, reglas de remolque), incluyendo pocas señales ridículas en el medio: (parafrasearlo para hacer estas señales legítimas de la calle)»Estacionamiento de la habitación para Brujas No Permitido en la Zona C» y «Magic Carpet Loading and Unloading Only (15-Minute Limit)» y «Reindeer Parking by Permit Only (Dec 24–25)\n Violators se colocarán en Naughty List.» La señal está a la derecha de una calle. No repita signos. Los signos deben ser realistas.

Personajes:
una bruja sostiene una escoba y la otra tiene una alfombra mágica enrollada. Están en primer plano, hacia atrás ligeramente girados hacia la cámara y la cabeza ligeramente inclinada mientras examinan las señales.

Composición de fondo a primer plano:
calles + autos estacionados + edificios -> letrero de calle -> brujas. Los personajes deben estar más cerca de la cámara que toma la fotoLeer más

imagen-gen-4o-street-sign

Lo mejor de ~8

Estoy abriendo un restaurante de concepto tradicional en Marin llamado Haein. Se centra en los alimentos coreanos cocinados con ingredientes orgánicos frescos de la granja, con un menú giratorio basado en lo que es estacional. Quiero que diseñes una imagen, un menú que incorpore los siguientes elementos del menú, inclínate por el estilo tradicional/rústico mientras lo mantienes sintiéndote exclusivo y elegante. También incluya ilustraciones de cada plato en un elegante estilo de conejo peter. Asegúrese de que todo el texto esté representado correctamente, con un fondo blanco.

(Top)

Doenjang Jjigae (Fermented Soybean Stew) – $18 Doenjang casero con champiñones locales, tofu y verduras de temporada servidas con arroz.

Galbi Jjim (Braised Short Ribs) – $34 Costillas de res alimentadas con pasto locales de cerebro lento con esmalte de pera y ajo negro, tubérculos de temporada y jujube.

Pescado de temporada a la parrilla – Precio de mercado ($22-$30) Todo o filete de pescado local y sostenible a la parrilla sobre carbón, servido con ssam de hoja de perilla y salsas caseras.

Bibimbap – $19 Arroz Heredero con una selección rotativa de verduras frescas de granja, gochujang fermentado en casa y huevo criado en pastos.

Bossam (Heritage Pork Wraps) – $28 Panceta de cerdo cocida lentamente con envolturas de col de napa, kimchi de ostra, perilla y condimentos de temporada.

(Bottom) Postre y bebidas Seasonal Makgeolli (Rice Wine) – $12/vidrio

Sabores rotativos a base de frutas y flores de temporada (persimón, cítricos, flor de saúco, etc.).

Hoddeok (Korean Sweet Pancake) – $9 Pan-frito panqueque relleno de canela con helado de sésamo negro.Leer más

ChatGPT Imagen Mar 24, 2025, 07 55 11 AM

Lo mejor de ~2

foto de una encantadora invitación de boda en un escritorio de madera de buen gusto. La tarjeta es fuerte, con texturas de cáscara de huevo y hermosos estampados, con elegantes decoraciones que representan abstractamente a la pareja integrada con buen gusto en los diseños. Se utiliza la iconografía, pero con moderación y de una manera minimalista.

«Estás cordialmente invitado
a la tan esperada unión de

Imagen
y
Texto

Después de años de coqueteo y colaboración
finalmente se están convirtiendo en uno.

Juntos por fin, en GPT‑4o,
ahora hablan el mismo idioma —
donde un susurro se convierte en una obra maestra
y un mensaje se convierte en una imagen.

Por favor, únete a nosotros para celebrar
este mágico matrimonio multimodal
donde la imaginación no conoce límites.

Fecha: Marzo 25, 2025
Ubicación: chatgpt.com
Código de vestimenta: Píxeles o Prosa

Con amor,
OpenAI»

composición tipográfica perfecta.Leer más

representación de texto X invitación

Lo mejor de ~10

Generación de múltiples vueltas

Debido a que la generación de imágenes ahora es nativa de GPT‑4o, puede refinar imágenes a través de una conversación natural. GPT‑4o puede basarse en imágenes y texto en el contexto del chat, asegurando consistencia en todo momento. Por ejemplo, si estás diseñando un personaje de videojuego, la apariencia de las características sigue siendo coherente en múltiples iteraciones a medida que refinas y experimentas.VideojuegoPoema concretoPegatinaVideojuegoPoema concretoPegatina

minnias entrada de gato

Dale a este gato un sombrero de detective y un monóculo

minnias-cat-2

Lo mejor de 1

turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography

minnias cat2

Best of 1

update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors

minnias cat3

Best of 2

create the interface when the player opens the menu and we see the cat’s character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)

minnias cat4

Best of 8

credit creator: Manuel Sainsily

poema concreto sobre tarjeta texturizada de cáscara de huevo de lujo

En OpenAI, hemos creído durante mucho tiempo que la generación de imágenes debería ser una capacidad principal de nuestros modelos de lenguaje. Es por eso que weiesve construyó nuestro generador de imágenes más avanzado hasta ahora en GPT‑4o. El resultado: generación de imágenes que no solo es hermosa, sino útil.

Desde las primeras pinturas rupestres hasta las infografías modernas, los humanos han utilizado imágenes visuales para comunicarse, persuadir y analizar, no solo para decorar. Los modelos generativos de hoy en día pueden evocar vistas impresionantes y escenarios surrealistas, pero aún luchan con las imágenes del caballo de batalla que subyacen a cómo se utilizan la mayoría de los datos visuales para compartir y crear información. Desde logotipos hasta diagramas, las imágenes pueden transmitir un significado preciso cuando se aumentan con símbolos que se refieren al lenguaje y la experiencia compartidos.

Con esta nueva capacidad, ChatGPT avanza la generación de imágenes hacia ser una herramienta práctica con precisión y potencia.Leer más

Captura de pantalla 2025-03-24 a las 9.10.27 AM

Lo mejor de 8

mostrar esta tarjeta, pero en una sala de diseñadores. tarjeta cerca de la cámara

Captura de pantalla 2025-03-18 a las 1.40.24 PM

Lo mejor de 8

¿puedes hacerme un lindo mapache minimalista comiendo una pegatina de fresa? use un borde blanco grueso y un fondo transparente

raccoon pegatina Oai marrón

prueba un estilo minimalista diferente y un mapache gris

oai pegatina mapache gris

awww, ¿puedes agregar una marca de masticación a la fresa y tal vez un lío rojo alrededor de la boca

genera una imagen transparente: un mapache con una fresa.

Instrucción siguiente

La generación de imágenes de GPT‑4ooAs sigue indicaciones detalladas con atención al detalle. Mientras que otros sistemas luchan con ~5-8 objetos, GPT‑4o puede manejar hasta 10-20 objetos diferentes. La unión más estrecha de los objetos a sus rasgos y relaciones permite un mejor control.Objetos organizadosCiudad vacíaCopa de vinoElefante invisibleEcuación matemáticaObjetos organizadosCiudad vacíaCopa de vinoElefante invisibleEcuación matemática

Una imagen cuadrada que contiene una cuadrícula de 4 filas por 4 columnas que contiene 16 objetos sobre un fondo blanco. Ir de izquierda a derecha, de arriba a abajo. Aquí está la lista:
1. una estrella azul
2. triángulo rojo
3. plaza verde
4. círculo rosa
5. reloj de arena naranja
6. signo de infinito púrpura
7. bowtie de lunares en blanco y negro
8. tatyye «42»
9. un gato naranja con una gorra de béisbol negra
10. un mapa con un cofre del tesoro
11. un par de ojos saltones
12. un pulgar hacia arriba emoji
13. un par de tijeras
14. una jirafa azul y blanca
15. la palabra «OpenAI» escrita en cursiva
16. un rayo de color arco irisLeer más

Captura de pantalla 2025-03-24 a las 10.07.12 AM

Lo mejor de 5

Times Square en la ciudad de Nueva York por la tarde, sin personas, vehículos o vallas publicitarias iluminadas.

Captura de pantalla 2025-03-24 a las 10.18.39 AM

Lo mejor de ~1

cruce de Shibuya sin personas, vehículos o vallas publicitarias iluminadas.

Captura de pantalla 2025-03-24 a las 10.12.04 AM

Lo mejor de ~1

muéstrame una copa de vino con solo la gota más pequeña de vino tinto.

Captura de pantalla 2025-03-17 a las 2.25.30 PM

Lo mejor de ~1

Necesitamos evidencia de que hay un elefante invisible actualmente presente. Considere lo que un elefante es y hace en el medio ambiente, luego muéstrenos eso, tal vez a mitad de proceso, pero el elefante en sí no se muestra en absoluto

Captura de pantalla 2025-03-24 a las 10.26.23 AM

creadora de crédito: Eskcanta

una pizarra que dice las siguientes ecuaciones:
E = mc^2
sqrt(9) = 3
(-b +/- sqrt(b^2 – 4ac)) / 2a

Captura de pantalla 2025-03-24 a las 9.36.48 PM

Lo mejor de ~1

Aprendizaje en contexto

GPT‑4o puede analizar y aprender de las imágenes cargadas por el usuario, integrando sin problemas sus detalles en su contexto para informar la generación de imágenes.Vehículo con ruedas triangularesMotosierraMujerEdificioVehículo con ruedas triangularesMotosierraMujerEdificio

en contexto-aprendizaje-prompt
  • dibuje un diseño para un vehículo con ruedas triangulares, utilizando estas imágenes como referencia.
  • etiquete la rueda delantera, la rueda trasera y, en el diagrama, digamos (en tapas pequeñas)
  • TRIÁNGULO VEHÍCULO CON RUEDAS. Patente Inglesa. 2025. OPENAI.
Captura de pantalla 2025-03-24 a las 10.41.56 AM

Lo mejor de ~16

ahora pon esto en una foto tomada en la ciudad de nueva york.

Captura de pantalla 2025-03-24 a las 10.42.45 AM

Lo mejor de ~16

una imagen fotorrealista de una motosierra azul

ChatGPT Imagen Mar 24, 2025, 09 48 14 PM

Lo mejor de 1

haga un anuncio para esta motosierra, de una abuela tallando pavo en la mesa de acción de gracias. agregue un eslogan

ChatGPT Imagen Mar 24, 2025, 09 48 59 PM

Lo mejor de 4

Captura de pantalla 2025-03-24 a las 10.46.58 AM

convierte esta escena en una foto. tomada en un dlsr

imagen

Lo mejor de ~8

Captura de pantalla 2025-03-24 a las 10.48.37 AM

convierte esto en una foto

Captura de pantalla 2025-03-24 a las 10.48.47 AM

Lo mejor de ~4

Conocimiento mundial

La generación de imágenes nativas permite a 4o vincular su conocimiento entre texto e imágenes, lo que resulta en un modelo que se siente más inteligente y eficiente.Imagen generada por códigoRecetas de cóctelInfografía meteorológicaGuía de ballenasInstrucciones matchaImagen generada por códigoRecetas de cóctelInfografía meteorológicaGuía de ballenasInstrucciones matcha

Ejemplo de Código (Three.js)

HTML

1<!DOCTYPE html>2<html lang="en">3<head>4<meta charset="UTF-8" />5<title>OpenAI Banner</title>6<style>7      body { margin: 0; overflow: hidden; }8      canvas { display: block; }9</style>10</head>11<body>12<script type="module">13import * asTHREEfrom'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';14import { OrbitControls } from'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';15import { FontLoader } from'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';16import { TextGeometry } from'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';1718const scene = newTHREE.Scene();19const camera = newTHREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);20const renderer = newTHREE.WebGLRenderer({ antialias: true });21      renderer.setSize(window.innerWidth, window.innerHeight);22document.body.appendChild(renderer.domElement);2324// Lighting25const light = newTHREE.AmbientLight(0xffffff, 1);26      scene.add(light);2728const dirLight = newTHREE.DirectionalLight(0xffffff, 1);29      dirLight.position.set(0, 5, 10);30      scene.add(dirLight);3132// Camera position33      camera.position.z = 20;3435// Controls36const controls = newOrbitControls(camera, renderer.domElement);3738// Banner background39const bannerGeometry = newTHREE.PlaneGeometry(20, 10);40const bannerMaterial = newTHREE.MeshStandardMaterial({ color: 0x1a1a1a });41const banner = newTHREE.Mesh(bannerGeometry, bannerMaterial);42      scene.add(banner);4344// OpenAI Logo texture (placeholder)45const loader = newTHREE.TextureLoader();46      loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {47const logoGeometry = newTHREE.PlaneGeometry(4, 4);48const logoMaterial = newTHREE.MeshBasicMaterial({ map: texture, transparent: true });49const logo = newTHREE.Mesh(logoGeometry, logoMaterial);50        logo.position.set(-5, 0, 0.1); // Slightly in front of the banner51        scene.add(logo);52      });5354// Load font and add text55const fontLoader = newFontLoader();56      fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {57const textGeometry = newTextGeometry("I am 4-o", {58font: font,59size: 1,60height: 0.2,61curveSegments: 12,62bevelEnabled: true,63bevelThickness: 0.02,64bevelSize: 0.02,65bevelOffset: 0,66bevelSegments: 567        });6869        textGeometry.center();7071const textMaterial = newTHREE.MeshStandardMaterial({ color: 0x00ffcc });72const textMesh = newTHREE.Mesh(textGeometry, textMaterial);73        textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo74        scene.add(textMesh);75      });7677// Resize handler78window.addEventListener('resize', () => {79        camera.aspect = window.innerWidth / window.innerHeight;80        camera.updateProjectionMatrix();81        renderer.setSize(window.innerWidth, window.innerHeight);82      });8384// Render loop85functionanimate() {86requestAnimationFrame(animate);87        controls.update();88        renderer.render(scene, camera);89      }9091animate();92</script>93</body>94</html>

haz una imagen de lo que esto significa para ti

Captura de pantalla 2025-03-18 a las 11.46.24 AM

Hazme un diagrama fotorrealista filmado profesionalmente de los cócteles más vendidos en mi bar con recetas etiquetadas en cada bebida.

ponga las recetas en tarjetas escritas a mano frente a cada bebida.

las cartas son marrones y el texto es negro.

el fondo es blanco

El título es «4 cócteles más populares»Leer más

ChatGPT Imagen Mar 24, 2025, 11 20 33 AM

Lo mejor de 1

haga una infografía visual que describa por qué SF está tan brumoso

ChatGPT Imagen Mar 24, 2025, 12 51 05 PM

Lo mejor de 3

cree un póster educativo de diferentes tipos de ballenas en un estilo de acuarela efervescente. haga que el fondo sea blanco puro.

ballenas

Lo mejor de 3

haz un risógrafo muy colorido sobre cómo hacer matcha

Captura de pantalla 2025-03-24 a las 10.08.43 PM

Lo mejor de 3

Fotorrealismo y estilo

La capacitación en imágenes que reflejan una gran variedad de estilos de imagen permite que el modelo cree o transforme imágenes de manera convincente.

Una foto sincera al estilo paparazzi de Karl Marx caminando apresuradamente por el estacionamiento del Mall of America, mirando por encima del hombro con una expresión sobresaltada mientras trata de evitar ser fotografiado. Talones agarrando múltiples bolsas de compras brillantes llenas de artículos de lujo. Su abrigo revolotea detrás de él en el viento, y una de las bolsas se balancea como si estuviera a mitad de camino. Fondo borroso con coches y una entrada brillante del centro comercial para enfatizar el movimiento. El resplandor flash de la cámara sobreexpone parcialmente la imagen, dándole una sensación caótica y sensacionalista.
Una foto sincera al estilo paparazzi de Karl Marx caminando apresuradamente por el estacionamiento del Mall of America, mirando por encima del hombro con una expresión sobresaltada mientras trata de evitar ser fotografiado. Talones agarrando múltiples bolsas de compras brillantes llenas de artículos de lujo. Su abrigo revolotea detrás de él en el viento, y una de las bolsas se balancea como si estuviera a mitad de camino. Fondo borroso con coches y una entrada brillante del centro comercial para enfatizar el movimiento. El resplandor flash de la cámara sobreexpone parcialmente la imagen, dándole una sensación caótica y sensacionalista.Leer más
  • Una foto sincera al estilo paparazzi de Karl Marx caminando apresuradamente por el estacionamiento del Mall of America, mirando por encima del hombro con una expresión sobresaltada mientras trata de evitar ser fotografiado. Talones agarrando múltiples bolsas de compras brillantes llenas de artículos de lujo. Su abrigo revolotea detrás de él en el viento, y una de las bolsas se balancea como si estuviera a mitad de camino. Fondo borroso con coches y una entrada brillante del centro comercial para enfatizar el movimiento. El resplandor flash de la cámara sobreexpone parcialmente la imagen, dándole una sensación caótica y sensacionalista.
  • Un gato mirando en un charco de agua en una calle, pero su reflejo es el de un tigre, y ambos reflejos son realísticamente distorsionados por las ondas en el agua
  • Genere una fotografía sincera de estilo Polaroid de cuatro amigos diversos de unos 20 años en un bar de buceo arenoso. La iluminación presenta un flash muy duro y directo, creando sombras nítidas y dando a la foto una sensación de cámara instantánea vintage muy sobreexpuesta. Los colores deben estar ligeramente apagados, evocando vibraciones nostálgicas de la fiesta de principios de la década de 2000. La estética es casualmente emo. Sin fronteras, logotipos o letreros. Hay una pared de aspecto interesante detrás de ellos con un poco de graffiti ligero. La calidad de la imagen debe ser muy nítida y detallada (muy poco grano). La energía debe ser tonta y caótica. Están juguetonamente haciendo muecas, sonriendo o fingiendo verse duros. Uno de ellos debería tener a su amigo en un candado tonto y juguetón. Sus bocas están cerradas.
  • Genere una imagen fotorrealista del mercado de agricultores en toronto en un sábado en el verano de 2006, es un hermoso día de junio, la gente está comprando y comiendo sándwiches.en el foco debe ser una joven asiática con monos de mezclilla y bebiendo un batido de plátano de fresa - el descanso puede ser borroso. La foto debe recordar que una cámara digital de 2006 tomaría, y con una marca de tiempo como tendría una foto impresa, la relación de aspecto debería ser de 3:2
  • borrosa fotografía de película analógica vieja, foto de coche estacionado en la calle lateral, noche tranquila. creador de crédito: [Roope Rainisto](https://www.instagram.com/never_ever_never_land/?igsh=MXh3N3EyOWdoMmNubg%3D%3D#)
  • Crear imagen super-realista imagen de estas 4 criaturas jugando al póquer en una manta de picnic, alejados, en dolores park. fotorrealista. El gato atigrado de pelo largo sostiene una mano; justo al lado hay 2 astillas negras verticales altas (con rayas) mientras ha estado rastrillando la masa.  Las pupilas de Tabby son grandes y lindas, y ii mirando hacia abajo y escudriñando sus cartas, enfocadas. Derpy gato negro fue todo adentro. Dos perros están mirando por encima del hombro del gato para ver sus cartas. Todas las cartas están boca abajo y del mismo color de espalda, excepto por un tres de diamantes expuestos. pequeña pila de fichas de póquer están delante de cada criatura, pero el gato negro fue todo en. los dos perros doblados. Todos los chips son del mismo conjunto y todas las tarjetas tienen el mismo color. fotorrealista, filmado en iphone, formato crudo.
  • Lo mejor de 1 | Genera un anuncio de retrato sobre un fondo pastel sólido.

En texto sólido blanco san serif, "Generación de imágenes de ChatGPT" en la parte superior izquierda, aproximadamente un tercio del camino hacia abajo.

En el texto sólido blanco de san serif, "La forma sigue la función", en la parte inferior derecha, aproximadamente un tercio del camino hacia arriba.

En el fondo, ponga una foto de una escultura realmente elegante y moderna. Debería pasar gradualmente de un boceto de wireframe a la izquierda a la versión completamente fotorrealista a la derecha. 

En la parte inferior, en texto medio-pequeño, diga "Todo este póster fue generado por la generación de imágenes ChatGPT."
  • Un astronauta solitario flota dentro de una vasta estación espacial, pintando galaxias arremolinándose en un lienzo masivo que cuelga sin peso en el aire. Su pincel deja rastros de polvo cósmico, y su traje está manchado con tonos de color nebulosa. Su casco está apagado, revelando ojos llenos del reflejo de planetas distantes. Fuera de la ventana de vidrio, se avecina un agujero negro, girando la luz en patrones fascinantes.
  • Fotografía realista de un caballo galopando de derecha a izquierda a través de una vasta y tranquila superficie oceánica, que representa con precisión salpicaduras, reflejos y sutiles patrones de ondulación debajo de sus pezuñas. Exagerar los movimientos de los caballos, pero todo lo demás debe ser quieto, tranquilo para mostrar el contraste con la fuerza del caballo. composición limpia, cinematográfico. Una composición amplia y panorámica que muestra un horizonte lejano. Perspectiva atmosférica que crea profundidad. se alejó para que el caballo parezca minúsculo en comparación con el vasto océano.

el caballo está justo en el horizonte donde el océano se encuentra con el cielo. use la regla de los tercios para colocar el caballo.el tamaño del caballo es del 1% del tamaño de la imagen completa porque la cámara está tan lejos del sujeto. la vista de la cámara está muy cerca del suelo/océano como la vista de un gusano. El caballo está galopando justo donde el océano se encuentra con el cielo
  • Una escena submarina realista con delfines nadando a través de las ventanas de un vagón de metro abandonado, con burbujas y un flujo de agua detallado simulado con precisión.
  • Foto de un frutero que consiste en frutas reales mezcladas con planetas en miniatura (Júpiter, Saturno, Marte, Tierra), manteniendo reflejos realistas, iluminación y sombras consistentes con la foto original, composición limpia, texturas auténticas, representación detallada nítida

Limitaciones

Nuestro modelo no es perfecto. Somos conscientes de las múltiples limitaciones en este momento que trabajaremos para abordar a través de mejoras en el modelo después del lanzamiento inicial.RecorteAlucinacionesAltos problemas de uniónGráficos precisosRepresentación de texto multilingüePrecisión de ediciónInformación densa con texto pequeñoRecorteAlucinacionesAltos problemas de uniónGráficos precisosRepresentación de texto multilingüePrecisión de ediciónInformación densa con texto pequeño

cultivo

Weweve notó que GPT‑4o ocasionalmente puede recortar imágenes más largas, como carteles, con demasiada fuerza, especialmente cerca de la parte inferior.

Alucinaciones

Al igual que nuestros otros modelos de texto, la generación de imágenes también puede componer información, especialmente en indicaciones de bajo contexto.

Altos problemas de unión

Al generar imágenes que se basan en su base de conocimientos, puede tener dificultades para representar con precisión más de 10-20 conceptos distintos a la vez, como una tabla periódica completa.Mostrar más

Gráficos precisos
Representación de texto multilingüe

El modelo a veces lucha conrenderizadoidiomas no latinos, y los personajes pueden ser inexactos o alucinados, especialmente con más complejidad.Mostrar más

Precisión de edición

Weizve notó que las solicitudes para editar partes específicas de una generación de imágenes, como los errores tipográficos, no siempre son efectivas y también pueden alterar otras partes de la imagen de una manera que no se solicitó o introducir más errores. Actualmente, Weirre está trabajando para introducir una mayor precisión de edición en el modelo.  

Weir es consciente de un error en el que el modelo lucha por mantener la consistencia de las ediciones en las caras de las cargas de los usuarios, pero espera que esto se solucione dentro de la semana.Mostrar más

Información densa con texto pequeño

Se sabe que el modelo tiene dificultades cuando se le pide que proporcione información detallada en un tamaño muy pequeño.

Seguridad

En línea con nuestra Especificación Modelo, nuestro objetivo es maximizar la libertad creativa al apoyar casos de uso valiosos como el desarrollo de juegos, la exploración histórica y la educación, mientras mantenemos estándares de seguridad sólidos. Al mismo tiempo, sigue siendo tan importante como siempre bloquear las solicitudes que violan esos estándares. A continuación se presentan evaluaciones de áreas de riesgo adicionales en las que estamos trabajando para permitir contenido seguro y de alta utilidad y apoyar una expresión creativa más amplia para los usuarios.

Procedencia a través de C2PA y búsqueda interna reversibleTodas las imágenes generadas vienen con metadatos C2PA, que identificarán una imagen como proveniente de GPT‑4o, para proporcionar transparencia. Weiosve también creó una herramienta de búsqueda interna que utiliza atributos técnicos de generaciones para ayudar a verificar si el contenido proviene de nuestro modelo.

Bloqueando las cosas malasWeirre continúa bloqueando las solicitudes de imágenes generadas que pueden violar nuestras políticas de contenido, como materiales de abuso sexual infantil y falsificaciones sexuales. Cuando las imágenes de personas reales están en contexto, hemos aumentado las restricciones con respecto a qué tipo de imágenes se pueden crear, con salvaguardas particularmente sólidas en torno a la desnudez y la violencia gráfica. Al igual que con cualquier lanzamiento, la seguridad nunca termina y es más bien un área de inversión continua. A medida que aprendamos más sobre el uso de este modelo en el mundo real, ajustaremos nuestras políticas en consecuencia.

Para obtener más información sobre nuestro enfoque, visite la generación de imágenes anexo a la tarjeta del sistema GPT‑4o.

Usar el razonamiento para impulsar la seguridadSimilar a nuestro alineación deliberativa weizing ha entrenado a un LLM de razonamiento para trabajar directamente a partir de especificaciones de seguridad escritas e interpretables por el hombre. Utilizamos este razonamiento LLM durante el desarrollo para ayudarnos a identificar y abordar las ambigüedades en nuestras políticas. Junto con nuestros avances multimodales y las técnicas de seguridad existentes desarrolladas para ChatGPT y Sora, esto nos permite moderado tanto el texto de entrada como las imágenes de salida en contra de nuestras políticas.

Acceso y disponibilidad

la generación de imágenes 4O se lanzará a partir de hoy a los usuarios Plus, Pro, Team y Free como el generador de imágenes predeterminado en ChatGPT, con acceso próximamente a Enterprise y Edu. También está disponible para usar en Sora. Para aquellos que tienen un lugar especial en sus corazones para DALL anE, aún se puede acceder a través de un GPT DALL blee dedicado.

Los desarrolladores pronto podrán generar imágenes con GPT‑4o a través de la API, y el acceso se implementará en las próximas semanas.

Crear y personalizar imágenes es tan simple como chatear con GPT‑4o, solo describa lo que necesita, incluidos detalles específicos como la relación de aspecto, los colores exactos con códigos hexadecimales o un fondo transparente. Debido a que este modelo crea imágenes más detalladas, las imágenes tardan más en renderizarse, a menudo hasta un minuto.

creador de crédito: [Alex Duffy](https://every.to/@AlxAi)
creador de crédito: Alex Duffy
  • creador de crédito: [Alex Duffy](https://every.to/@AlxAi)
  • credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#)
  • credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#)
  • credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#)
  • credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#)
  • credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#)
  • credit creator: [August Kamp](https://www.instagram.com/august.kamp/?igsh=MTRpeG9xd3F2MzEyeg#)
  • creadora de crédito: Cassandra Ansara
  • credit creator: [Isa](https://www.instagram.com/isabelitavirtual/?igsh=ZHdoYjFwYzV6dzFi#)
  • credit creator: [Isa](https://www.instagram.com/isabelitavirtual/?igsh=ZHdoYjFwYzV6dzFi#)
  • creadora de crédito: Les Morgan
  • creadora de crédito: Les Morgan
  • credit creator: [Derya Unatmaz](https://x.com/deryatr_)
  • credit creator: [Derya Unatmaz](https://x.com/deryatr_)
  • credit creator: [Derya Unatmaz](https://x.com/deryatr_)
  • credit creator: [Elene Chekurishvili](https://www.instagram.com/th_ene_ighbor/?igsh=eDh2Z2kyOGhnaXA0#)
  • credit creator: [Elene Chekurishvili](https://www.instagram.com/th_ene_ighbor/?igsh=eDh2Z2kyOGhnaXA0#)
  • credit creator: [Elene Chekurishvili](https://www.instagram.com/th_ene_ighbor/?igsh=eDh2Z2kyOGhnaXA0#)
  • credit creator: [Elene Chekurishvili](https://www.instagram.com/th_ene_ighbor/?igsh=eDh2Z2kyOGhnaXA0#)
  • credit creator: [Elene Chekurishvili](https://www.instagram.com/th_ene_ighbor/?igsh=eDh2Z2kyOGhnaXA0#)
  • credit creator: [Eugenio Marongiu](https://www.instagram.com/katsukokoiso.ai/?igsh=YTduZnNjZ2RhdTM3#)
  • credit creator: [Eugenio Marongiu](https://www.instagram.com/katsukokoiso.ai/?igsh=YTduZnNjZ2RhdTM3#)
  • creador de crédito: Jesse Kramme
  • creador de crédito: Jesse Kramme
  • creador de crédito: Matthew Dear
  • credit creator: [Minh Do](https://www.instagram.com/minhsmind/?igsh=MTFscDRqZ3JiZHVveA%3D%3D#)
  • credit creator: [Niceaunties](https://www.instagram.com/niceaunties/?igsh=Nm1jZmV4YTF6MTQ%3D#)
  • creadora de crédito: Eskcanta
  • creadora de crédito: Eskcanta
  • credit creator: [Roope Rainisto](https://www.instagram.com/never_ever_never_land/?igsh=MXh3N3EyOWdoMmNubg%3D%3D#)
  • credit creator: [Roope Rainisto](https://www.instagram.com/never_ever_never_land/?igsh=MXh3N3EyOWdoMmNubg%3D%3D#)
  • credit creator: [Roope Rainisto](https://www.instagram.com/never_ever_never_land/?igsh=MXh3N3EyOWdoMmNubg%3D%3D#)
  • creador de crédito: Shane Copenhagen
  • creador de crédito: Will Maberry
  • creador de crédito: Manuel Sainsily
  • creador de crédito: Manuel Sainsily
  • creador de crédito: Manuel Sainsily
  • creador de crédito: Manuel Sainsily
  • creador de crédito: Manuel Sainsily

Reproducción de livestream

https://www.youtube-nocookie.com/embed/2f3K43FHRKo?autoplay=0&mute=0&controls=1&origin=https%3A%2F%2Fopenai.com&playsinline=1&showinfo=0&rel=0&iv_load_policy=3&modestbranding=1&enablejsapi=1&hl=en-US&widgetid=1&forigin=https%3A%2F%2Fopenai.com%2Findex%2Fintroducing-4o-image-generation%2F&aoriginsup=1&gporigin=https%3A%2F%2Fwww.google.com%2F&vf=1

Reproducir video

Autor

OpenAI

Liderazgo

Gabriel Goh: Generación de Imagen

Jackie Shannon: Producto ChatGPT

Zhong Mengchao, Wayne Chang: ChatGPT Ingeniería

Rohan Sahai: Producto e Ingeniería de Sora

Brendan Quinn, Tomer Kaftan: Inferencia

Prafulla Dhariwal: Organización Multimodal

Investigación

Investigación Fundacional

Allan Jabri, David Medina, Gabriel Goh, Kenji Hata, Lu Liu, Prafulla Dhariwal

Investigación Core

Aditya Ramesh, Alex Nichol, Casey Chu, Cheng Lu, Dian Ang Yap, Heewoo Jun, James Betker, Jianfeng Wang, Long Ouyang, Li Jing, Wesam Manassra

Colaboradores de Investigación

Aiden Low, Brandon McKinzie, Charlie Nash, Huiwen Chang, Ishaan Gulrajani, Jamie Kiros, Ji Lin, Kshitij Gupta, Yang Song

Comportamiento Modelo

Laurentia Romaní

Organización Multimodal

Andrew Gibiansky, Yang Lu

Datos

Líderes de Datos

Gildas Chabot, James Park Lennon

Datos

Arshi Bhatnagar, Dragos Oprica, Rohan Kshirsagar, Spencer Papay, Szi-chieh Yu, Wesam Manassra, Yilei Qian

Moderadores

Hazel Byrne, Jennifer Luckenbill, Mariano López

Asesores de Datos Humanos

Ouyang Largo

Escalado

Inferencia Leads

Brendan Quinn, Tomer Kaftan

Inferencia

Alyssa Huang, Jacob Menick, Nick Stathas, Ruslan Vasilev, Stanley Hsieh

Aplicado

ChatGPT Líder de Producto

Shannon Jackie

ChatGPT Ingeniería Lidera

Zhong Mengchao, Wayne Chang

Diseño de Producto Lead

Chan Matt

Ciencia de Datos

Hao Xiaolin

ChatGPT

Andrew Sima, Annie Cheng, Benjamin Goh, Boyang Niu, Dian Ang Yap, Duc Tran, Edede Oiwoh, Eric Zhang, Ethan Chang, Jeffrey Dunham, Jay Chen, Kan Wu, Karen Li, Kelly Stirman, Mengyuan Xu, Michelle Qin, Ola Okelola, Pedro Aguilar, Rocky Smith, Rohit Ramchandani, Sara Culver, Sean Fitzgerald, Vlad Fomenko, Wanning Jiang, Wesam Manassra, Xiaolin Hao, Yilei Qian

Sora

Sora Líderes de Producto

Rohan Sahai, Wesam Manassra

Producto e Ingeniería de Sora

Boyang Niu, David Schnurr, Gilman Tolle, Joe Taylor, Joey Flynn, Mike Starr, Rajeev Nayak, Rohan Sahai, Wesam Manassra

Seguridad

Plomo de Seguridad

Somay Jain

Seguridad

Alex Beutel, Andrea Vallone, Botao Hao, Brendan Quinn, Cameron Raymond, Chong Zhang, David Robinson, Eric Wallace, Filippo Raso, Huiwen Chang, Ian Kivlichan, Irina Kofman, Keren Gu-Lemberg, Kristen Ying, Madelaine Boyd, Meghan Shah, Michael Lampe, Owen Campbell-Moore, Rohan Sahai, Rodrigo Riaza Pérez, Sam Toizer, Sandhini Agarwal, Troy Peterson

Estrategia

Adam Cohen, Adam Wells, Ally Bennett, Ashley Pantuliano, Carolina Paz, Claudia Fischer, Declan Grabb, Gaby Sacramone-Lutz, Lauren Jonas, Ryan Beiermeister, Shiao Lee, Tom Stasi, Tyce Walters, Ziad Reslan, Zoe Stoll

Marketing y Comms

Comms y Marketing Leads

Minnia Feng, Natalie Summers, Taya Christianson

Comms

Alex Baker-Whitcomb, Ashley Tyra, Bailey Richardson, Gaby Raila, Marselus Cayton, Scott Ethersmith, Souki Mansoor

Diseño y Creativo

Lidera

Kendra Rimbach, Veit Moeller

Diseño

Adam Brandon, Adam Koppel, Angela Baek, Cary Hudson, Dana Palmie, Freddie Sulit, Jeffrey Sabin Matsumoto, Leyan Lo, Matt Nichols, Thomas Degry, Vanessa Antonia Schefke, Yara Khakbaz

Gracias Especiales

Aditya Ramesh, Aidan Clark, Alex Beutel, Ben Newhouse, Ben Rossen, Che Chang, Greg Brockman, Hannah Wong, Ishaan Singal, Jason Kwon, Jiacheng Feng, Jiahui Yu, Joanne Jang, Johannes Heidecke, Kevin Weil, Mark Chen, Mia Glaese, Nick Turley, Raul Puri, Reiichiro Nakano, Rui Shu, Sam Altman, Shuchao Bi, Vinnie Monaco

OpenAI News. Traducido al español

Artículos relacionados

Scroll al inicio