
Presentamos 4o Image Generation
Desbloqueo de generación de imágenes útiles y valiosas con un modelo multimodal nativo capaz de salidas precisas, precisas y fotorrealistas. En OpenAI, hemos creído durante mucho tiempo que la generación de imágenes debería ser una capacidad principal de nuestros modelos de lenguaje. Es por eso que weiesve construyó nuestro generador de imágenes más avanzado hasta ahora en GPT‑4o. El resultado— generación de imágenes que no solo es hermoso, sino útil. Una imagen amplia tomada con un teléfono de una pizarra de vidrio, en una habitación con vistas al Puente de la Bahía. El campo de visión muestra a una mujer escribiendo, luciendo una camiseta con un gran logotipo OpenAI. La escritura a mano se ve natural y un poco desordenada, y vemos el reflejo del fotógrafo. El texto dice: (izquierda)«Transferencia entre Modalidades: Supongamos que modelamos directamentep(texto, píxeles, sonido) [ecuación]con un gran transformador autorregresivo. Pros:* generación de imágenes aumentada con vasto conocimiento mundial* renderizado de texto de siguiente nivel* aprendizaje nativo en contexto* pila unificada de post-entrenamiento Contras:* variación de la tasa de bits entre modalidades* cómputo no adaptativo» (Derecho)«Arreglos:* representaciones comprimidas modelo* componer prioregresivo con un potente decodificador» En la parte inferior derecha del tablero, dibuja un diagrama:«tokens -> [transformer] -> [difusion] -> pixels»Leer más Lo mejor de 8 vista selfie del fotógrafo, mientras se da vuelta a lo alto cinco él Lo mejor de 8 poesía magnética en una nevera en una casa de mediados de siglo: Línea 1: «Una imagen»Línea 2: «vale la pena»Línea 3: «mil palabras»Línea 4: «pero a veces»Large gapLine 5: «en el lugar correcto»Línea 6: «puede elevar»Línea 7: «su significado. «El hombre sostiene las palabras «unos pocos» en su mano derecha y las «palabras» en su izquierda.Leer más Lo mejor de 5 Haga una imagen de una tira de cuatro‑panel, con un poco de relleno alrededor del borde: Un pequeño caracol está en el mostrador de una llamativa sala de exposición de autos. El vendedor se ha inclinado sobre el escritorio para verlo. Close‑up en el caracol se ve muy serio. Él dice, “quiero tu auto deportivo más rápido… y quiero que pintes una gran letra ‘Ss en las puertas, el capó y el techo.” El vendedor se está rascando la cabeza. “Um… podemos hacer eso, pero ¿por qué los Sing?” Cortar a un rojo borroso rugiendo por la carretera. El auto deportivo está cubierto de Ss gigantes. ¡La gente en la acera está señalando y riendo: “WOW! MIRA ESE S‑CAR GO!”Leer más Lo mejor de ~2 una infografía que explica el experimento del prisma de Newton con gran detalle Lo mejor de 3 ahora genere un POV de una persona dibujando este diagrama en su cuaderno, en una mesa redonda de café en el parque cuadrado de Washington Lo mejor de 2 ahora muestra la misma escena con un joven presumido Isaac Newton sentado a la mesa, con un prisma, demostrando el experimento, sin el cuaderno a la vista Lo mejor de 4 Generación de imágenes útil Desde las primeras pinturas rupestres hasta las infografías modernas, los humanos han utilizado imágenes visuales para comunicarse, persuadir y analizar—, no solo para decorar. Los modelos generativos de hoy en día pueden evocar escenas surrealistas e impresionantes, pero luchan con las imágenes del caballo de batalla que las personas usan para compartir y crear información. Desde logotipos hasta diagramas, las imágenes pueden transmitir un significado preciso cuando se aumentan con símbolos que se refieren al lenguaje y la experiencia compartidos. La generación de imágenes de GPT‑4o sobresale en la representación precisa de texto, siguiendo con precisión las indicaciones, y aprovechando la base de conocimientos inherente de 4oA y el contexto del chat—, incluida la transformación de imágenes cargadas o su uso como inspiración visual. Estas capacidades hacen que sea más fácil crear exactamente la imagen que visualiza, ayudándole a comunicarse de manera más efectiva a través de imágenes y avanzando la generación de imágenes en una herramienta práctica con precisión y potencia. 00:0000:00 00:0000:00 00:0000:00 00:0000:00 00:0000:00 Capacidades mejoradas Capacitamos a nuestros modelos en la distribución conjunta de imágenes y texto en línea, aprendiendo no solo cómo las imágenes se relacionan con el lenguaje, sino cómo se relacionan entre sí. Combinado con el post-entrenamiento agresivo, el modelo resultante tiene una fluidez visual sorprendente, capaz de generar imágenes que son útiles, consistentes y conscientes del contexto. Representación de texto Una imagen vale más que mil palabras, pero a veces generar unas pocas palabras en el lugar correcto puede elevar el significado de una imagen. La capacidad de 4oOs para combinar símbolos precisos con imágenes convierte la generación de imágenes en una herramienta para la comunicación visual.Señales de calleMenúInvitaciónSeñales de calleMenúInvitación Crea una imagen fotorrealista de dos brujas de unos 20 años (un balayage de ceniza, uno con cabello largo y ondulado) leyendo un letrero de calle. Contexto:una calle de la ciudad en una calle aleatoria en Williamsburg, Nueva York con un poste cubierto completamente por numerosas señales detalladas de la calle (por ejemplo, horas de barrido de la calle, permisos de estacionamiento requeridos, clasificaciones de vehículos, reglas de remolque), incluyendo pocas señales ridículas en el medio: (parafrasearlo para hacer estas señales legítimas de la calle)»Estacionamiento de la habitación para Brujas No Permitido en la Zona C» y «Magic Carpet Loading and Unloading Only (15-Minute Limit)» y «Reindeer Parking by Permit Only (Dec 24–25)\n Violators se colocarán en Naughty List.» La señal está a la derecha de una calle. No repita signos. Los signos deben ser realistas. Personajes:una bruja sostiene una escoba y la otra tiene una alfombra mágica enrollada. Están en primer plano, hacia atrás ligeramente girados hacia la cámara y la cabeza ligeramente inclinada mientras examinan las señales. Composición de fondo a primer plano:calles + autos estacionados + edificios -> letrero de calle -> brujas. Los personajes deben estar más cerca de la cámara que toma la fotoLeer más Lo mejor de ~8 Estoy abriendo un restaurante de concepto tradicional en Marin llamado Haein. Se centra en los alimentos coreanos cocinados con ingredientes orgánicos frescos de