Una nueva serie de modelos GPT con mejoras importantes en codificación, seguimiento de instrucciones y contexto largo, más nuestro primer modelo nano.
Hoy lanzamos tres nuevos modelos en la API: GPT‑4.1, GPT‑4.1 mini y GPT‑4.1 nano. Estos modelos superan a GPT‑4o y GPT‑4o mini en todos los aspectos, con importantes mejoras en la codificación y el seguimiento de instrucciones. Además, cuentan con ventanas de contexto más amplias (admiten hasta un millón de tokens de contexto) y permiten un mejor uso de dicho contexto gracias a una mejor comprensión de contextos extensos. Presentan un límite de conocimiento actualizado de junio de 2024.
GPT‑4.1 destaca en las siguientes medidas estándar de la industria:
- Codificación : GPT-4.1 obtiene un puntaje de 54.6% en SWE-bench Verified , mejorando un 21.4% absoluto sobre GPT-4o y un 26.6% absoluto sobre GPT-4.5, lo que lo convierte en un modelo líder para codificación.
- Instrucciones a seguir: MultiChallenge de On Scale(se abre en una nueva ventana)El punto de referencia, una medida de la capacidad de seguir instrucciones, GPT-4.1 obtiene un puntaje de 38.3%, un aumento del 10.5% en abs sobre GPT-4o.
- Contexto largo: En Video-MME (se abre en una nueva ventana), un punto de referencia para la comprensión de contextos largos multimodales, GPT‑4.1 establece un nuevo resultado de última generación: un puntaje de 72,0 % en la categoría larga, sin subtítulos, una mejora absoluta del 6,7 % con respecto a GPT‑4o.
Si bien los benchmarks proporcionan información valiosa, entrenamos estos modelos centrándonos en su utilidad en el mundo real. La estrecha colaboración con la comunidad de desarrolladores nos permitió optimizar estos modelos para las tareas más importantes para sus aplicaciones.
Para ello, la familia de modelos GPT‑4.1 ofrece un rendimiento excepcional a un coste menor. Estos modelos optimizan el rendimiento en cada punto de la curva de latencia.
GPT‑4.1 mini representa un avance significativo en el rendimiento de los modelos pequeños, superando incluso a GPT‑4o en numerosas pruebas de rendimiento. Iguala o supera a GPT‑4o en evaluaciones de inteligencia, a la vez que reduce la latencia casi a la mitad y el coste en un 83 %.
Para tareas que requieren baja latencia, GPT‑4.1 nano es nuestro modelo más rápido y económico disponible. Ofrece un rendimiento excepcional en un tamaño compacto gracias a su ventana de contexto de 1 millón de tokens, y obtiene una puntuación del 80,1 % en MMLU, del 50,3 % en GPQA y del 9,8 % en codificación políglota de Aider, incluso superior a la de GPT‑4o mini. Es ideal para tareas como la clasificación o el autocompletado.
Estas mejoras en la fiabilidad del seguimiento de instrucciones y la comprensión de contextos extensos también hacen que los modelos GPT‑4.1 sean considerablemente más eficaces para impulsar agentes o sistemas que pueden realizar tareas de forma independiente en nombre de los usuarios. Al combinarse con primitivas como la API de Respuestas …(se abre en una nueva ventana)Los desarrolladores ahora pueden crear agentes que sean más útiles y confiables en la ingeniería de software del mundo real, extrayendo información de documentos grandes, resolviendo solicitudes de clientes con mínima asistencia y otras tareas complejas.
Tenga en cuenta que GPT‑4.1 solo estará disponible a través de la API. En ChatGPT, muchas de las mejoras en el seguimiento de instrucciones, la codificación y la inteligencia se han incorporado gradualmente a la última versión .(se abre en una nueva ventana)de GPT‑4o y continuaremos incorporando más en futuras versiones.
También comenzaremos a descontinuar la versión preliminar de GPT‑4.5 en la API, ya que GPT‑4.1 ofrece un rendimiento mejorado o similar en muchas funciones clave con un costo y una latencia mucho menores. La versión preliminar de GPT‑4.5 se desactivará dentro de tres meses, el 14 de julio de 2025, para dar tiempo a los desarrolladores para la transición. GPT‑4.5 se presentó como una versión preliminar de investigación para explorar y experimentar con un modelo grande y de alto consumo de recursos, y hemos aprendido mucho de los comentarios de los desarrolladores. Seguiremos incorporando la creatividad, la calidad de escritura, el humor y los matices que nos comentaron que apreciaban en GPT‑4.5 a los futuros modelos de API.
A continuación, desglosamos el rendimiento de GPT-4.1 en varios puntos de referencia, junto con ejemplos de evaluadores alfa como Windsurf, Qodo, Hex, Blue J, Thomson Reuters y Carlyle que muestran su rendimiento en producción en tareas específicas del dominio.
Codificación
GPT-4.1 es significativamente mejor que GPT-4o en una variedad de tareas de codificación, incluidas la resolución de tareas de codificación de manera agente, codificación frontend, realizar menos ediciones extrañas, seguir formatos diff de manera confiable, garantizar el uso constante de la herramienta y más.
En SWE-bench Verified, una medida de habilidades reales de ingeniería de software, GPT‑4.1 completa el 54,6 % de las tareas, en comparación con el 33,2 % de GPT‑4o (20/11/2024). Esto refleja mejoras en la capacidad del modelo para explorar un repositorio de código, finalizar una tarea y producir código que se ejecuta y supera las pruebas.GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)OpenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4o mini55%33%41%49%38%24%9%SWE‑bench Verified accuracy
Para SWE-bench Verified , se asigna a un modelo un repositorio de código y una descripción del problema, y debe generar un parche para solucionarlo. El rendimiento depende en gran medida de las indicaciones y las herramientas utilizadas. Para facilitar la reproducción y contextualización de nuestros resultados, describimos nuestra configuración para GPT‑4.1 aquí .(se abre en una nueva ventana)Nuestras puntuaciones omiten 23 de 500 problemas cuyas soluciones no pudieron ejecutarse en nuestra infraestructura; si se les asigna una puntuación conservadora de 0, la puntuación del 54,6 % se convierte en 52,1 %.
Para los desarrolladores de API que buscan editar archivos grandes, GPT‑4.1 es mucho más confiable en las comparaciones de código entre diversos formatos. GPT‑4.1 duplica con creces la puntuación de GPT‑4o en la prueba de comparación de diferencias políglotas de Aider .(se abre en una nueva ventana)e incluso supera a GPT‑4.5 en un 8% absoluto. Esta evaluación mide tanto la capacidad de codificación en varios lenguajes de programación como la capacidad del modelo para producir cambios en formatos completos y diferenciales. Hemos entrenado específicamente a GPT‑4.1 para que siga los formatos diferenciales con mayor fiabilidad, lo que permite a los desarrolladores ahorrar costes y latencia al modificar solo las líneas de salida del modelo, en lugar de reescribir un archivo completo. Para obtener el mejor rendimiento en la comparación de código, consulte nuestra guía de indicaciones .(se abre en una nueva ventana)Para los desarrolladores que prefieren reescribir archivos completos, hemos aumentado el límite de tokens de salida para GPT‑4.1 a 32 768 tokens (en comparación con los 16 384 tokens de GPT‑4o). También recomendamos usar las salidas predichas .(se abre en una nueva ventana)para reducir la latencia de las reescrituras de archivos completos.GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)OpenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini52% (whole)53% (diff)31% (whole)18% (diff)64% (whole)62% (diff)67% (whole)60% (diff)35% (whole)32% (diff)10% (whole)6% (diff)4% (whole)3% (diff)N/A (whole)45% (diff)Aider’s polyglot benchmark accuracy
En el punto de referencia políglota de Aider, los modelos resuelven ejercicios de codificación de Exercism .(se abre en una nueva ventana)Editando los archivos fuente, con un solo reintento permitido. El formato «whole» requiere que el modelo reescriba el archivo completo, lo cual puede ser lento y costoso. El formato «diff» requiere que el modelo escriba una serie de bloques de búsqueda y reemplazo .(se abre en una nueva ventana).
GPT‑4.1 también mejora sustancialmente a GPT‑4o en cuanto a programación frontend y permite crear aplicaciones web más funcionales y estéticamente atractivas. En nuestras comparaciones directas, los correctores humanos pagados prefirieron los sitios web de GPT‑4.1 a los de GPT‑4o el 80 % de las veces.
Indicación: Crear una aplicación web de flashcards. El usuario debe poder crear flashcards, buscar entre sus flashcards existentes, revisar flashcards y ver estadísticas sobre flashcards revisadas. Precargar diez tarjetas que contengan una palabra o frase en hindi y su traducción al inglés. Interfaz de revisión: En la interfaz de revisión, hacer clic o presionar la barra espaciadora debe voltear la tarjeta con una animación 3D suave para revelar la traducción. Presionar las teclas de flecha debe navegar por las tarjetas. Interfaz de búsqueda: La barra de búsqueda debe proporcionar dinámicamente una lista de resultados a medida que el usuario escribe una consulta. Interfaz de estadísticas: La página de estadísticas debe mostrar un gráfico del número de tarjetas que el usuario ha revisado y el porcentaje de aciertos. Interfaz de creación de tarjetas: La página de creación de tarjetas debe permitir al usuario especificar el anverso y el reverso de una flashcard y agregarla a la colección del usuario. Cada una de estas interfaces debe ser accesible en la barra lateral. Generar una aplicación React de una sola página (poner todos los estilos en línea).
GPT‑4o
GPT‑4.1
Más allá de los puntos de referencia mencionados, GPT‑4.1 sigue mejor los formatos con mayor fiabilidad y realiza ediciones superfluas con menos frecuencia. En nuestras evaluaciones internas, las ediciones superfluas en el código se redujeron del 9 % con GPT‑4o al 2 % con GPT‑4.1.
Ejemplos del mundo real
Windsurf(se abre en una nueva ventana)GPT‑4.1 obtiene una puntuación un 60 % superior a GPT‑4o en el benchmark de codificación interno de Windsurf, lo que se correlaciona estrechamente con la frecuencia con la que se aceptan los cambios de código en la primera revisión. Sus usuarios observaron que era un 30 % más eficiente al llamar a herramientas y aproximadamente un 50 % menos propenso a repetir ediciones innecesarias o leer código en pasos incrementales demasiado estrechos. Estas mejoras se traducen en iteraciones más rápidas y flujos de trabajo más fluidos para los equipos de ingeniería.
Qodo(se abre en una nueva ventana)Qodo probó GPT‑4.1 directamente con otros modelos líderes para generar revisiones de código de alta calidad a partir de solicitudes de extracción de GitHub, utilizando una metodología inspirada en su punto de referencia de ajuste. En 200 solicitudes de extracción reales significativas con las mismas indicaciones y condiciones, descubrieron que GPT‑4.1 generó la mejor sugerencia en el 55 % de los casos .(se abre en una nueva ventana)En particular, descubrieron que GPT‑4.1 destaca tanto por su precisión (saber cuándo no hacer sugerencias) como por su exhaustividad (proporcionar un análisis exhaustivo cuando es necesario), a la vez que mantiene el foco en cuestiones verdaderamente críticas.
Instrucciones siguientes
GPT-4.1 sigue instrucciones de manera más confiable y hemos medido mejoras significativas en una variedad de evaluaciones de seguimiento de instrucciones.
Desarrollamos una evaluación interna para el seguimiento de instrucciones para rastrear el desempeño del modelo en varias dimensiones y en varias categorías clave de seguimiento de instrucciones, que incluyen:
- Seguimiento del formato. Proporciona instrucciones que especifican un formato personalizado para la respuesta del modelo, como XML, YAML, Markdown, etc.
- Instrucciones negativas. Especifican el comportamiento que el modelo debe evitar. (Ejemplo: «No pedir al usuario que contacte con soporte»)
- Instrucciones ordenadas. Proporciona un conjunto de instrucciones que el modelo debe seguir en un orden determinado. (Ejemplo: «Primero pedir el nombre del usuario, luego pedir su correo electrónico»)
- Requisitos de contenido. Generar contenido que incluya cierta información. (Ejemplo: «Incluya siempre la cantidad de proteínas al elaborar un plan de nutrición»).
- Clasificación. Ordenar los resultados de una manera específica. (Ejemplo: «Ordenar la respuesta por número de población»)
- Exceso de confianza. Indicar al modelo que diga «No sé» o algo similar si la información solicitada no está disponible o si la solicitud no se ajusta a una categoría específica. (Ejemplo: «Si no sabe la respuesta, proporcione el correo electrónico de contacto de soporte»)
Estas categorías son el resultado de los comentarios de los desarrolladores sobre qué aspectos del seguimiento de instrucciones son más relevantes e importantes para ellos. Dentro de cada categoría, hemos dividido las indicaciones en fáciles, intermedias y difíciles. GPT‑4.1 mejora significativamente con respecto a GPT‑4o, especialmente en las indicaciones difíciles.GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)OpenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini49%29%51%50%54%45%32%27%Internal OpenAI Instructions following eval accuracy (hard subset)
Nuestra instrucción interna posterior a la evaluación se basa en casos de uso y comentarios de desarrolladores reales y abarca tareas de diversa complejidad junto con instrucciones sobre formato, verbosidad, longitud y más.
El seguimiento de instrucciones multiturno es fundamental para muchos desarrolladores: es importante que el modelo mantenga la coherencia durante una conversación y recuerde lo que el usuario le dijo anteriormente. Hemos entrenado GPT‑4.1 para que sea más capaz de identificar información de mensajes anteriores en la conversación, lo que permite conversaciones más naturales. El benchmark MultiChallenge de Scale es una medida útil de esta capacidad, y GPT‑4.1 tiene un rendimiento un 10,5 % superior en abs a GPT‑4o.GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)OpenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini38%28%45%40%44%36%15%20%MultiChallenge accuracy
En MultiChallenge (se abre en una nueva ventana)Se desafía a los modelos en conversaciones de múltiples turnos para utilizar adecuadamente cuatro tipos de información de mensajes anteriores.
GPT‑4.1 también obtiene una puntuación del 87,4 % en IFEval, en comparación con el 81,0 % de GPT‑4o. IFEval utiliza indicaciones con instrucciones verificables (por ejemplo, especificar la longitud del contenido o evitar ciertos términos o formatos).GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)OpenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini87%81%92%94%88%84%75%78%IFEval accuracy
En IFEval (se abre en una nueva ventana), los modelos deben generar respuestas que cumplan con varias instrucciones.
Un mejor seguimiento de las instrucciones aumenta la fiabilidad de las aplicaciones existentes y permite el desarrollo de nuevas aplicaciones que antes se veían limitadas por su baja fiabilidad. Los primeros evaluadores observaron que GPT‑4.1 puede ser más literal, por lo que recomendamos ser explícito y específico en las indicaciones. Para obtener más información sobre las prácticas recomendadas de indicaciones para GPT‑4.1, consulte la guía de indicaciones.
Ejemplos del mundo real
Azul J(se abre en una nueva ventana)GPT-4.1 fue un 53 % más preciso que GPT-4o en un análisis de referencia interno de los escenarios fiscales reales más complejos de Blue J. Este aumento en la precisión, clave tanto para el rendimiento del sistema como para la satisfacción del usuario, destaca la mejor comprensión de GPT-4.1 de regulaciones complejas y su capacidad para seguir instrucciones con matices en contextos extensos. Para los usuarios de Blue J, esto se traduce en una investigación fiscal más rápida y fiable, y más tiempo para realizar trabajos de asesoría de alto valor .
Hex(se abre en una nueva ventana):GPT‑4.1 proporcionó una mejora de casi el doble en el conjunto de evaluación SQL más desafiante de Hex .(se abre en una nueva ventana)Se mostraron mejoras significativas en el seguimiento de instrucciones y la comprensión semántica. El modelo fue más fiable al seleccionar las tablas correctas entre esquemas grandes y ambiguos, un punto de decisión inicial que afecta directamente la precisión general y es difícil de ajustar únicamente mediante indicaciones. Para Hex, esto resultó en una reducción apreciable de la depuración manual y una vía más rápida hacia flujos de trabajo de producción.
Contexto largo
GPT‑4.1, GPT‑4.1 mini y GPT‑4.1 nano pueden procesar hasta 1 millón de tokens de contexto, en comparación con los 128 000 de los modelos GPT‑4o anteriores. 1 millón de tokens son más de 8 copias de toda la base de código de React, por lo que el contexto largo es ideal para procesar bases de código grandes o muchos documentos largos.
Hemos entrenado a GPT‑4.1 para que preste atención a la información de forma fiable en todo el contexto de 1 millón de caracteres. También lo hemos entrenado para que sea mucho más fiable que GPT‑4o a la hora de identificar texto relevante e ignorar distractores en contextos largos y cortos. La comprensión de contextos largos es una capacidad crucial para aplicaciones en los ámbitos legal, de programación, de atención al cliente y muchos otros.
A continuación, demostramos la capacidad de GPT‑4.1 para recuperar una pequeña pieza oculta de información (una «aguja») ubicada en varios puntos de la ventana de contexto. GPT‑4.1 recupera la aguja de forma consistente y precisa en todas las posiciones y longitudes de contexto, hasta un millón de tokens. Es capaz de extraer eficazmente detalles relevantes para la tarea en cuestión, independientemente de su posición en la entrada.
En nuestra evaluación interna de «aguja en un pajar», GPT-4.1, GPT-4.1 mini y GPT 4.1 nano pueden recuperar la aguja en todas las posiciones en el contexto hasta 1M.
Sin embargo, pocas tareas del mundo real son tan sencillas como obtener una única respuesta obvia. Observamos que los usuarios a menudo necesitan que nuestros modelos recuperen y comprendan múltiples datos, y que los comprendan en relación con ellos. Para demostrar esta capacidad, estamos publicando una nueva evaluación: OpenAI-MRCR (Correferencia Multironda).
OpenAI-MRCR prueba la capacidad del modelo para encontrar y desambiguar múltiples agujas bien ocultas en el contexto. La evaluación consiste en conversaciones sintéticas de varios turnos entre un usuario y un asistente, donde el usuario solicita un texto sobre un tema, por ejemplo, «escribe un poema sobre tapires» o «escribe una entrada de blog sobre rocas». A continuación, insertamos dos, cuatro u ocho solicitudes idénticas en todo el contexto. El modelo debe entonces recuperar la respuesta correspondiente a una instancia específica (p. ej., «dame el tercer poema sobre tapires»).
El desafío surge de la similitud entre estas solicitudes y el resto del contexto: los modelos pueden ser fácilmente engañados por diferencias sutiles, como un cuento sobre tapires en lugar de un poema, o un poema sobre ranas en lugar de tapires. Observamos que GPT‑4.1 supera a GPT‑4o en longitudes de contexto de hasta 128 000 tokens y mantiene un rendimiento sólido incluso con un millón de tokens.
Pero la tarea sigue siendo difícil, incluso para modelos de razonamiento avanzados. Compartimos el conjunto de datos de evaluación .(se abre en una nueva ventana)para fomentar un mayor trabajo en la recuperación de contextos largos en el mundo real.2 agujas4 agujas8 agujas
En OpenAI- MRCR(se abre en una nueva ventana), el modelo debe responder una pregunta que implica desambiguar entre 2, 4 u 8 indicaciones para el usuario distribuidas entre distractores.Mostrar más
En OpenAI- MRCR(se abre en una nueva ventana), el modelo debe responder una pregunta que implica desambiguar entre 2, 4 u 8 indicaciones para el usuario distribuidas entre distractores.Mostrar más
En OpenAI- MRCR(se abre en una nueva ventana), el modelo debe responder una pregunta que implica desambiguar entre 2, 4 u 8 indicaciones para el usuario distribuidas entre distractores.Mostrar más
También estamos lanzando Graphwalks (se abre en una nueva ventana)Un conjunto de datos para evaluar el razonamiento multisalto en contextos largos. Muchos casos de uso de desarrolladores para contextos largos requieren múltiples saltos lógicos dentro del contexto, como saltar entre varios archivos al escribir código o hacer referencias cruzadas de documentos al responder preguntas legales complejas.
Un modelo (o incluso un humano) podría, teóricamente, resolver un problema de OpenAI-MRCR con solo una pasada o lectura del mensaje, pero Graphwalks está diseñado para requerir razonamiento en múltiples posiciones en el contexto y no se puede resolver secuencialmente.
Graphwalks llena la ventana de contexto con un grafo dirigido compuesto por hashes hexadecimales y, a continuación, solicita al modelo que realice una búsqueda en amplitud (BFS) a partir de un nodo aleatorio del grafo. Posteriormente, le solicitamos que devuelva todos los nodos a una profundidad determinada. GPT‑4.1 alcanza una precisión del 61,7 % en este punto de referencia, igualando el rendimiento de o1 y superando ampliamente a GPT‑4o.GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)OpenAI o3-mini (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini62%42%62%51%72%62%25%29%Graphwalks BFS <128k accuracy
En Graphwalks(se abre en una nueva ventana)Se le pide a un modelo que realice una búsqueda en amplitud desde un nodo aleatorio en un gráfico grande.
Los puntos de referencia no cuentan la historia completa, por lo que trabajamos con socios alfa para probar el rendimiento de GPT-4.1 en sus tareas de contexto largo del mundo real.
Ejemplos del mundo real
Thomson Reuters: (se abre en una nueva ventana) Thomson Reuters probó GPT‑4.1 con CoCounsel, su asistente de IA profesional para el trabajo legal. En comparación con GPT‑4o, lograron mejorar la precisión de la revisión de múltiples documentos en un 17 % al usar GPT‑4.1 en evaluaciones internas de contexto extenso, una medida esencial de la capacidad de CoCounsel para gestionar flujos de trabajo legales complejos que involucran múltiples documentos extensos. En particular, observaron que el modelo es altamente confiable para mantener el contexto entre las fuentes e identificar con precisión las relaciones sutiles entre documentos, como cláusulas contradictorias o contexto adicional, tareas cruciales para el análisis legal y la toma de decisiones.
Carlyle(se abre en una nueva ventana)Carlyle utilizó GPT‑4.1 para extraer con precisión datos financieros granulares de múltiples documentos extensos, incluyendo archivos PDF, archivos de Excel y otros formatos complejos. Según sus evaluaciones internas, obtuvo un rendimiento un 50 % superior en la recuperación de documentos muy grandes con datos densos y fue el primer modelo en superar con éxito las principales limitaciones observadas con otros modelos disponibles, como la recuperación de la aguja en el pajar, los errores de pérdida en el medio y el razonamiento de múltiples saltos entre documentos.
Además del rendimiento y la precisión del modelo, los desarrolladores también necesitan modelos que respondan rápidamente para adaptarse a las necesidades de los usuarios. Hemos mejorado nuestra pila de inferencia para reducir el tiempo hasta el primer token, y con el almacenamiento en caché rápido, se puede reducir aún más la latencia y, al mismo tiempo, ahorrar costos. En nuestras pruebas iniciales, la latencia hasta el primer token para GPT‑4.1 fue de aproximadamente quince segundos con 128 000 tokens de contexto, y de un minuto con un millón de tokens de contexto . GPT‑4.1 mini y nano son más rápidos; por ejemplo, GPT‑4.1 nano suele devolver el primer token en menos de cinco segundos para consultas con 128 000 tokens de entrada.
Visión
La familia GPT‑4.1 es excepcionalmente fuerte en la comprensión de imágenes, y el GPT‑4.1 mini en particular representa un avance significativo, superando a menudo al GPT‑4o en los puntos de referencia de imágenes.GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini75%69%78%75%73%55%56%MMMU accuracy
En MMMU(se abre en una nueva ventana)Un modelo responde preguntas que contienen gráficos, diagramas, mapas, etc. (Nota: incluso cuando no se incluye la imagen, aún se pueden inferir o adivinar muchas respuestas a partir del contexto).GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini72%61%72%72%73%56%57%MathVista accuracy
En MathVista(se abre en una nueva ventana), un modelo resuelve tareas matemáticas visuales.GPT-4.1GPT-4o (2024-11-20)OpenAI o1 (high)GPT-4.5GPT-4.1 miniGPT-4.1 nanoGPT-4o mini57%53%55%55%57%41%37%CharXiv-Reasoning accuracy
En CharXiv- Razonamiento(se abre en una nueva ventana), un modelo responde preguntas sobre gráficos de artículos científicos.
El rendimiento de contextos largos también es importante para casos de uso multimodales, como el procesamiento de videos largos. En Video- MME(se abre en una nueva ventana)(largo sin subtítulos), un modelo responde preguntas de opción múltiple basadas en videos de 30 a 60 minutos sin subtítulos. GPT‑4.1 alcanza un rendimiento excepcional, con una puntuación del 72,0 %, frente al 65,3 % de GPT‑4o.GPT-4.1GPT-4o (2024-11-20)72%65%Video long context
En Vídeo-MME (se abre en una nueva ventana)Una modelo responde preguntas de opción múltiple basadas en videos de 30 a 60 minutos de duración sin subtítulos.
Precios
GPT‑4.1, GPT‑4.1 mini y GPT‑4.1 nano ya están disponibles para todos los desarrolladores.
Gracias a las mejoras de eficiencia en nuestros sistemas de inferencia, hemos podido ofrecer precios más bajos en la serie GPT‑4.1. GPT‑4.1 es un 26 % más económico que GPT‑4o para consultas medianas, y GPT‑4.1 nano es nuestro modelo más económico y rápido hasta la fecha. Para las consultas que pasan repetidamente el mismo contexto, aumentamos el descuento por caché de solicitudes al 75 % (en comparación con el 50 % anterior) para estos nuevos modelos. Por último, ofrecemos solicitudes de contexto largas sin coste adicional, más allá del coste estándar por token.
Modelo (Los precios son por 1 millón de tokens) | Aporte | Entrada en caché | Producción | Precios combinados* |
gpt-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
gpt-4.1-mini | $0.40 | $0.10 | $1.60 | $0.42 |
gpt-4.1-nano | $0.10 | $0.025 | $0.40 | $0.12 |
*Basado en relaciones típicas de entrada/salida y caché.
Estos modelos están disponibles para su uso en nuestra API Batch .(se abre en una nueva ventana)con un descuento adicional en el precio del 50%.
Conclusión
GPT‑4.1 representa un avance significativo en la aplicación práctica de la IA. Al centrarse en las necesidades reales de los desarrolladores, desde la codificación hasta el seguimiento de instrucciones y la comprensión del contexto, estos modelos abren nuevas posibilidades para desarrollar sistemas inteligentes y aplicaciones con agentes sofisticadas. Nos inspiramos continuamente en la creatividad de la comunidad de desarrolladores y nos entusiasma ver lo que crean con GPT‑4.1.
Apéndice
A continuación, se puede encontrar una lista completa de resultados de evaluaciones académicas, de codificación, de seguimiento de instrucciones, de contexto largo, de visión y de llamada de funciones.
Conocimientos académicos
Categoría | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | OpenAI o1(alto) | OpenAI o3-mini(alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
AIME ’24 | 48,1% | 49,6% | 29,4% | 13,1% | 8,6% | 74,3% | 87,3% | 36,7% |
Diamante 1 de GPQA | 66,3% | 65.0% | 50,3% | 46,0% | 40,2% | 75,7% | 77,2% | 69,5% |
Universidad de Michigan | 90,2% | 87,5% | 80,1% | 85,7% | 82.0% | 91,8% | 86,9% | 90,8% |
MMLU multilingüe | 87,3% | 78,5% | 66,9% | 81,4% | 70,5% | 87,7% | 80,7% | 85,1% |
[1] Nuestra implementación de GPQA utiliza un modelo para extraer la respuesta en lugar de expresiones regulares. Para GPT-4.1, la diferencia fue <1% (no estadísticamente significativa), pero para GPT-4o, la extracción del modelo mejora significativamente las puntuaciones (~46% -> 54%).
Evaluaciones de codificación
Categoría | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | OpenAI o1(alto) | OpenAI o3-mini(alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
SWE-bench verificado 2 | 54,6% | 23,6% | – | 33,2% | 8,7% | 41,0% | 49,3% | 38,0% |
SWE-Lancer | $176 mil (35,1%) | $165 mil (33,0%) | $77 mil (15,3%) | $163 mil (32,6%) | $116 mil (23,1%) | $160 mil (32,1%) | $90 mil (18,0%) | $186 mil (37,3%) |
SWE-Lancer (subconjunto IC-Diamond) | $34 mil (14,4%) | $31 mil (13,1%) | $9K (3.7%) | $29 mil (12,4%) | $11 mil (4.8%) | $29 mil (9,7%) | $17 mil (7,4%) | $41 mil (17,4%) |
Políglota de Aider: entero | 51,6% | 34,7% | 9,8% | 30,7% | 3,6% | 64,6% | 66,7% | – |
Políglota de Aider: diff | 52,9% | 31,6% | 6,2% | 18,2% | 2,7% | 61,7% | 60,4% | 44,9% |
[2] Omitimos 23/500 problemas que no pudieron ejecutarse en nuestra infraestructura. La lista completa de 23 tareas omitidas son ‘astropy__astropy-7606’, ‘astropy__astropy-8707’, ‘astropy__astropy-8872’, ‘django__django-10097’, ‘django__django-7530’, ‘matplotlib__matplotlib-20488’, ‘matplotlib__matplotlib-20676’, ‘matplotlib__matplotlib-20826’, ‘matplotlib__matplotlib-23299’, ‘matplotlib__matplotlib-24970’, ‘matplotlib__matplotlib-25479’, ‘matplotlib__matplotlib-26342’, ‘psf__requests-6028’, ‘pylint-dev__pylint-6528’, ‘pylint-dev__pylint-7080’, ‘pylint-dev__pylint-7277’, ‘pytest-dev__pytest-5262’, ‘pytest-dev__pytest-7521’, ‘scikit-learn__scikit-learn-12973’, ‘sphinx-doc__sphinx-10466’, ‘sphinx-doc__sphinx-7462’, ‘sphinx-doc__sphinx-8265’ y ‘sphinx-doc__sphinx-9367’.
Instrucciones siguientes
Categoría | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | OpenAI o1(alto) | OpenAI o3-mini(alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
Seguimiento de instrucciones de API interna (estricto) | 49,1% | 45,1% | 31,6% | 29,2% | 27,2% | 51,3% | 50.0% | 54.0% |
Multidesafío | 38,3% | 35,8% | 15.0% | 27,8% | 20,3% | 44,9% | 39,9% | 43,8% |
MultiChallenge (o3-mini grado) 3 | 46,2% | 42,2% | 31,1% | 39,9% | 25,6% | 52,9% | 50,2% | 50,1% |
COLLIE | 65,8% | 54,6% | 42,5% | 50,2% | 52,7% | 95,3% | 98,7% | 72,3% |
IFEval | 87,4% | 84,1% | 74,5% | 81.0% | 78,4% | 92,2% | 93,9% | 88,2% |
Multi-IF | 70,8% | 67,0% | 57,2% | 60,9% | 57,9% | 77,9% | 79,5% | 70,8% |
[3] Nota: Observamos que el calificador predeterminado de MultiChallenge (GPT-4o) frecuentemente puntúa erróneamente las respuestas del modelo. Observamos que cambiar el calificador a un modelo de razonamiento, como o3-mini, mejora significativamente la precisión de la calificación en las muestras inspeccionadas. Por razones de coherencia con la tabla de clasificación, publicamos ambos conjuntos de resultados.
Evaluaciones de contexto largas
Categoría | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | OpenAI o1(alto) | OpenAI o3-mini(alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
OpenAI-MRCR: 2 agujas de 128 000 | 57,2% | 47,2% | 36,6% | 31,9% | 24,5% | 22,1% | 18,7% | 38,5% |
OpenAI-MRCR: 2 agujas de 1 m | 46,3% | 33,3% | 12.0% | – | – | – | – | – |
Paseos de gráficos bfs <128k | 61,7% | 61,7% | 25.0% | 41,7% | 29,0% | 62,0% | 51.0% | 72,3% |
Paseos de gráficos bfs >128k | 19.0% | 15.0% | 2,9% | – | – | – | – | – |
Paseos gráficos padres <128k | 58,0% | 60,5% | 9,4% | 35,4% | 12,6% | 50,9% | 58,3% | 72,6% |
Paseos de gráficos padres >128k | 25.0% | 11.0% | 5,6% | – | – | – | – | – |
Visión
Categoría | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | OpenAI o1(alto) | OpenAI o3-mini(alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
MMMU | 74,8% | 72,7% | 55,4% | 68,7% | 56,3% | 77,6% | – | 75,2% |
MathVista | 72,2% | 73,1% | 56,2% | 61,4% | 56,5% | 71,8% | – | 72,3% |
CharXiv-R | 56,7% | 56,8% | 40,5% | 52,7% | 36,8% | 55,1% | – | 55,4% |
CharXiv-D | 87,9% | 88,4% | 73,9% | 85,3% | 76,6% | 88,9% | – | 90.0% |
Llamada de función
Categoría | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | GPT-4o(2024-11-20) | GPT-4o mini | OpenAI o1(alto) | OpenAI o3-mini(alto) | GPT-4.5 |
---|---|---|---|---|---|---|---|---|
Banco de funciones complejas | 65,5% | 49,3% | 5,7% | 66,5% | 38,6% | 47,6% | 17,6% | 63,0% |
Aerolínea Taubench 4 | 49,4% | 36.0% | 14.0% | 42,8% | 22,0% | 50.0% | 32,4% | 50.0% |
Tienda minorista Taubench 4, 5 | 68,0% (73,6%) | 55,8% (65,4%) | 22,6% (23,5%) | 60,3% | 44.0% | 70,8% | 57,6% | 68,4% |
[4] Los números de evaluación de tau-bench se promedian en 5 ejecuciones para reducir la variación y se ejecutan sin herramientas personalizadas ni indicaciones.
[5] Los números entre paréntesis representan los resultados de Tau-bench al utilizar GPT-4.1 como modelo de usuario, en lugar de GPT-4o. Hemos observado que, dado que GPT-4.1 sigue mejor las instrucciones, su rendimiento como usuario es mayor, lo que resulta en trayectorias más exitosas. Creemos que esto representa el rendimiento real del modelo evaluado en el benchmark.
Repetición de transmisión en vivo
https://www.youtube-nocookie.com/embed/kA-P9ood-cE?autoplay=0&mute=0&controls=1&origin=https%3A%2F%2Fopenai.com&playsinline=1&showinfo=0&rel=0&iv_load_policy=3&modestbranding=1&enablejsapi=1&hl=en-US&widgetid=1&forigin=https%3A%2F%2Fopenai.com%2Findex%2Fgpt-4-1%2F&aoriginsup=1&vf=1
Reproducir vídeo
OpenAI News. Traducido al español