Nuestros modelos más inteligentes y capaces hasta la fecha con acceso completo a herramientas Hoy lanzamos OpenAI o3 y o4-mini, los modelos más recientes de nuestra serie o, entrenados para pensar durante más tiempo antes de responder. Estos son los modelos más inteligentes que hemos lanzado hasta la fecha, lo que representa un cambio radical en las capacidades de ChatGPT para todos, desde usuarios curiosos hasta investigadores avanzados. Por primera vez, nuestros modelos de razonamiento pueden usar y combinar de forma agente todas las herramientas de ChatGPT, incluyendo la búsqueda web, el análisis de archivos subidos y otros datos con Python, el razonamiento profundo sobre entradas visuales e incluso la generación de imágenes. Fundamentalmente, estos modelos están entrenados para razonar sobre cuándo y cómo usar las herramientas para producir respuestas detalladas y bien pensadas en los formatos de salida adecuados, generalmente en menos de un minuto, para resolver problemas más complejos. Esto les permite abordar preguntas multifacéticas con mayor eficacia, un paso hacia un ChatGPT más agente que puede ejecutar tareas de forma independiente. La combinación del poder del razonamiento de vanguardia con acceso completo a las herramientas se traduce en un rendimiento significativamente superior en pruebas académicas y tareas del mundo real, estableciendo un nuevo estándar tanto en inteligencia como en utilidad. ¿Qué ha cambiado? OpenAI o3 es nuestro modelo de razonamiento más potente, que revoluciona la programación, las matemáticas, la ciencia, la percepción visual y más. Establece un nuevo SOTA en benchmarks como Codeforces, SWE-bench (sin crear un andamiaje específico para el modelo) y MMMU. Es ideal para consultas complejas que requieren un análisis multifacético y cuyas respuestas pueden no ser obvias de inmediato. Se desempeña especialmente bien en tareas visuales como el análisis de imágenes, diagramas y gráficos. En evaluaciones realizadas por expertos externos, o3 comete un 20 % menos de errores importantes que OpenAI o1 en tareas difíciles del mundo real, destacando especialmente en áreas como programación, negocios/consultoría e ideación creativa. Los primeros evaluadores destacaron su rigor analítico como un socio de pensamiento y enfatizaron su capacidad para generar y evaluar críticamente hipótesis novedosas, particularmente en contextos de biología, matemáticas e ingeniería. OpenAI o4-mini es un modelo más pequeño, optimizado para un razonamiento rápido y rentable. Logra un rendimiento notable para su tamaño y costo, especialmente en matemáticas, programación y tareas visuales . Es el modelo de referencia con mejor rendimiento en AIME 2024 y 2025. Si bien el acceso a una computadora reduce significativamente la dificultad del examen AIME, también destacamos que o4-mini logra un 99.5% de aprobados a 1 (100% de consenso a 8) en AIME 2025 al tener acceso a un intérprete de Python. Si bien estos resultados no deben compararse con el rendimiento de modelos sin acceso a herramientas, son un ejemplo de la eficacia con la que o4-mini aprovecha las herramientas disponibles; o3 muestra mejoras similares en AIME 2025 gracias al uso de herramientas (98.4% de aprobados a 1, 100% de consenso a 8). En evaluaciones de expertos, o4-mini también supera a su predecesor, o3-mini, en tareas no STEM, así como en dominios como la ciencia de datos. Gracias a su eficiencia, o4-mini admite límites de uso significativamente mayores que o3, lo que lo convierte en una opción sólida para preguntas de alto volumen y alto rendimiento que se benefician del razonamiento. Evaluadores expertos externos calificaron ambos modelos por demostrar un mejor seguimiento de instrucciones y respuestas más útiles y verificables que sus predecesores, gracias a una inteligencia mejorada y a la inclusión de fuentes web. En comparación con versiones anteriores de nuestros modelos de razonamiento, estos dos modelos también deberían resultar más naturales y conversacionales, especialmente porque hacen referencia a la memoria y a conversaciones pasadas para que las respuestas sean más personalizadas y relevantes.o1o3-minio3 (no tools)o4-mini (no tools)Accuracy (%)74.387.391.693.4AIME 2024Competition Matho1o3-minio3 (no tools)o4-mini (no tools)Accuracy (%)79.286.588.992.7AIME 2025Competition Matho1o3-minio3 (with terminal)o4-mini (with terminal)ELO1891207327062719CodeforcesCompetition Codeo1o3-minio3 (no tools)o4-mini (no tools)Accuracy (%)78.077.083.381.4GPQA DiamondPhD-Level Science Questionso1-proo3-minio3 (no tools)o3 (python + browsing** tools)o4-mini (no tools)o4-mini (with python + browsin…Deep researchAccuracy (%)8.1213.4020.3224.9014.2817.7026.60Humanity’s Last ExamExpert-Level Questions Across Subjects Multimodal o1o3o4-miniAccuracy (%)77.682.981.6MMMUCollege-level visual problem-solvingo1o3o4-miniAccuracy (%)71.886.884.3MathVistaVisual Math Reasoningo1o3o4-miniAccuracy (%)55.178.672.0CharXiv-ReasoningScientific Figure Reasoning Codificación o1-higho3-mini-higho3-higho4-mini-high$0$59,000$118,000$177,000$236,000Dollars earned$28,500$17,375$65,250$56,375SWE-Lancer: IC SWE DiamondFreelance Coding Taskso1o3-minio3o4-miniAccuracy (%)48.949.369.168.1SWE-Bench VerifiedSoftware Engineeringo1-higho3-mini-higho3-higho4-mini-highAccuracy (%)64.4%(whole)61.7%(diff)66.7%(whole)60.4%(diff)81.3%(whole)79.6%(diff)68.9%(whole)58.2%(diff)Aider PolyglotCode Editing Seguimiento de instrucciones y uso de herramientas de forma agente o1o3-minio3o4-miniAccuracy (%)44.9339.8956.5142.99Scale MultiChallengeMulti-turn instruction following4o + browsingo3 with python + browsing*o4-mini with python + browsin…Deep researchAccuracy (%)1.949.728.351.5BrowseCompAgentic Browsingo1-higho3-mini-higho3-higho4-mini-highAccuracy (%)50.0%(Airline)70.8%(Retail)32.4%(Airline)57.6%(Retail)52.0%(Airline)70.4%(Retail)49.2%(Airline)65.6%(Retail)Tau-benchFunction Calling Todos los modelos se evalúan con configuraciones de «esfuerzo de razonamiento» elevado, similares a variantes como «o4-mini-high» en ChatGPT. Continuamos ampliando el aprendizaje de refuerzo Durante el desarrollo de OpenAI o3, hemos observado que el aprendizaje por refuerzo a gran escala exhibe la misma tendencia de «mayor cómputo = mejor rendimiento » observada en el preentrenamiento de la serie GPT. Al repasar la trayectoria de escalado, esta vez en aprendizaje por refuerzo (RL), hemos impulsado un orden de magnitud adicional tanto el cómputo de entrenamiento como el razonamiento en tiempo de inferencia, y aun así observamos claras mejoras de rendimiento, lo que confirma que el rendimiento de los modelos continúa mejorando cuanto más se les permite pensar. Con la misma latencia y coste que OpenAI o1, o3 ofrece un mayor rendimiento en ChatGPT, y hemos confirmado que, si le permitimos pensar durante más tiempo, su rendimiento sigue aumentando. También entrenamos a ambos modelos para usar herramientas mediante aprendizaje por refuerzo , enseñándoles no solo cómo usarlas, sino también a razonar sobre cuándo usarlas. Su capacidad para implementar herramientas según los resultados deseados los hace más competentes en situaciones abiertas, especialmente aquellas que implican razonamiento visual y flujos de trabajo de varios pasos. Esta mejora se refleja tanto en los puntos de referencia académicos como en las tareas del mundo real, según informaron los primeros evaluadores. Pensar con imágenes Por primera vez, estos modelos pueden integrar imágenes directamente en su cadena de pensamiento. No solo ven una imagen, sino que piensan con ella. Esto abre un nuevo tipo de resolución de problemas que combina el razonamiento visual y textual, lo que se refleja en su rendimiento de vanguardia en pruebas multimodales. Se puede subir una foto de una pizarra, un