gpt-oss-120b y gpt-oss-20b amplían la frontera de los modelos de razonamiento de peso abierto
Introducción
Lanzamos gpt-oss-120b y gpt-oss-20b, dos modelos de lenguaje de vanguardia de peso abierto que ofrecen un excelente rendimiento en el mundo real a bajo costo. Disponibles bajo la flexible licencia Apache 2.0, estos modelos superan a los modelos abiertos de tamaño similar en tareas de razonamiento, demuestran sólidas capacidades de uso de herramientas y están optimizados para una implementación eficiente en hardware de consumo. Se entrenaron utilizando una combinación de aprendizaje por refuerzo y técnicas basadas en los modelos internos más avanzados de OpenAI, incluyendo o3 y otros sistemas de vanguardia.
El modelo gpt-oss-120b alcanza un nivel casi igual al de OpenAI o4-mini en las pruebas de rendimiento de razonamiento básico, a la vez que se ejecuta eficientemente en una sola GPU de 80 GB. El modelo gpt-oss-20b ofrece resultados similares a los de OpenAI o3-mini en las pruebas de rendimiento comunes y puede ejecutarse en dispositivos de borde con tan solo 16 GB de memoria, lo que lo hace ideal para casos de uso en el dispositivo, inferencia local o iteración rápida sin una infraestructura costosa. Ambos modelos también ofrecen un excelente rendimiento en el uso de herramientas, llamadas a funciones de pocos intentos, razonamiento CoT (como se observa en los resultados de la suite de evaluación de agentes Tau-Bench) y HealthBench (superando incluso a modelos propietarios como OpenAI o1 y GPT-4o).
Estos modelos son compatibles con nuestra API de respuestas .(se abre en una nueva ventana)Están diseñados para usarse en flujos de trabajo de agencia con un seguimiento excepcional de instrucciones, uso de herramientas como la búsqueda web o la ejecución de código Python, y capacidades de razonamiento, incluyendo la posibilidad de ajustar el esfuerzo de razonamiento para tareas que no requieren razonamiento complejo o que buscan resultados finales con muy baja latencia. Son totalmente personalizables, proporcionan una cadena de pensamiento completa (CoT) y admiten salidas estructuradas .(se abre en una nueva ventana).
La seguridad es fundamental en nuestro enfoque para la publicación de todos nuestros modelos, y es especialmente importante para los modelos abiertos. Además de someter los modelos a una capacitación y evaluaciones de seguridad exhaustivas, también introdujimos un nivel adicional de evaluación mediante la prueba de una versión optimizada de gpt-oss-120b para situaciones adversarias, bajo nuestro Marco de Preparación .(se abre en una nueva ventana)Los modelos gpt-oss tienen un rendimiento comparable al de nuestros modelos de frontera en las pruebas de seguridad internas, ofreciendo a los desarrolladores los mismos estándares de seguridad que nuestros modelos propietarios recientes. Compartiremos los resultados de este trabajo y más detalles en un artículo de investigación .(se abre en una nueva ventana)y en la tarjeta modelo(se abre en una nueva ventana)Nuestra metodología fue revisada por expertos externos y marca un paso adelante en el establecimiento de nuevos estándares de seguridad para modelos de peso abierto.
También hemos estado trabajando con socios pioneros como AI Sweden .(se abre en una nueva ventana), Naranja (se abre en una nueva ventana), y Copo de Nieve (se abre en una nueva ventana)Para conocer las aplicaciones reales de nuestros modelos abiertos, desde alojarlos localmente para la seguridad de los datos hasta optimizarlos en conjuntos de datos especializados. Nos entusiasma ofrecer estos modelos abiertos de primera clase para que todos, desde desarrolladores individuales hasta grandes empresas y gobiernos, puedan ejecutar y personalizar la IA en su propia infraestructura. Junto con los modelos disponibles en nuestra API, los desarrolladores pueden elegir el rendimiento, el coste y la latencia que necesitan para impulsar los flujos de trabajo de IA.
Preentrenamiento y arquitectura del modelo
Los modelos gpt-oss se entrenaron utilizando nuestras técnicas más avanzadas de preentrenamiento y postentrenamiento, con especial énfasis en el razonamiento, la eficiencia y la usabilidad real en una amplia gama de entornos de implementación. Si bien hemos puesto a disposición abiertamente otros modelos, como Whisper y CLIP , los modelos gpt-oss son nuestros primeros modelos de lenguaje de peso abierto desde GPT‑2 [1] .
Cada modelo es un transformador que aprovecha la mezcla de expertos (MoE [2] ) para reducir la cantidad de parámetros activos necesarios para procesar la entrada. gpt-oss-120b activa 5100 millones de parámetros por token, mientras que gpt-oss-20b activa 3600 millones. Los modelos tienen un total de 117 b y 21 b de parámetros, respectivamente. Los modelos utilizan patrones de atención alternados densos y dispersos con bandas locales, similares a GPT‑3 [3] . Para la inferencia y la eficiencia de la memoria, los modelos también utilizan atención agrupada de múltiples consultas, con un tamaño de grupo de 8. Utilizamos la incrustación posicional rotatoria (RoPE [4] ) para la codificación posicional y admitimos de forma nativa longitudes de contexto de hasta 128 k.
Modelo | Capas | Parámetros totales | Parámetros activos por token | Expertos totales | Expertos activos por token | Longitud del contexto |
gpt-oss-120b | 36 | 117B | 5.1B | 128 | 4 | 128k |
gpt-oss-20b | 24 | 21B | 3.6B | 32 | 4 | 128k |
Entrenamos los modelos con un conjunto de datos principalmente en inglés, solo con texto, centrado en STEM, programación y cultura general. Tokenizamos los datos utilizando un superconjunto de nuestro tokenizador utilizado para OpenAI o4-mini y GPT‑4o: o200k_harmony, que también publicamos hoy.
Para obtener más información sobre la arquitectura y el entrenamiento de nuestros modelos, lea la tarjeta del modelo .
Post-entrenamiento
Los modelos se entrenaron posteriormente mediante un proceso similar al de o4-mini, que incluyó una etapa de ajuste fino supervisado y una etapa de aprendizaje automático (RL) de alto rendimiento. Nuestro objetivo era alinear los modelos con la especificación de modelos de OpenAI .(se abre en una nueva ventana)y enseñarle a aplicar el razonamiento de CoT y el uso de herramientas antes de generar su respuesta. Al utilizar las mismas técnicas que nuestros modelos de razonamiento patentados de SoTA, los modelos demuestran capacidades excepcionales tras el postentrenamiento.
Al igual que los modelos de razonamiento de la serie o de OpenAI en la API, los dos modelos de peso abierto admiten tres esfuerzos de razonamiento (bajo, medio y alto) que equilibran la latencia con el rendimiento. Los desarrolladores pueden configurar fácilmente el esfuerzo de razonamiento con una sola frase en el mensaje del sistema.
Evaluaciones
Evaluamos gpt-oss-120b y gpt-oss-20b en puntos de referencia académicos estándar para medir sus capacidades en codificación, matemáticas de competencia, salud y uso de herramientas agenticas en comparación con otros modelos de razonamiento OpenAI, incluidos o3, o3-mini y o4-mini.
gpt-oss-120b supera a OpenAI o3-mini e iguala o supera a OpenAI o4-mini en codificación de competición (Codeforces), resolución de problemas generales (MMLU y HLE) y llamadas a herramientas (TauBench). Además, supera a o4-mini en consultas relacionadas con la salud ( HealthBench ) y matemáticas de competición (AIME 2024 y 2025). gpt-oss-20b iguala o supera a OpenAI o3-mini en estas mismas evaluaciones, a pesar de su pequeño tamaño, incluso superándolo en matemáticas de competición y salud.2622246325162230270627192073CodeforcesCompetition codegpt-oss-120b (with tools)gpt-oss-120b (withouttools)gpt-oss-20b (with tools)gpt-oss-20b (withouttools)o3 (with tools)o4-mini (with tools)o3-mini (without tools)Elo rating1914.917.310.924.917.713.4Humanity’s Last ExamExpert-level questions across subjectsgpt-oss-120b (with tools)gpt-oss-120b (withouttools)gpt-oss-20b (with tools)gpt-oss-20b (withouttools)o3 (with tools)o4-mini (with tools)o3-mini (without tools)Accuracy (%)57.642.559.850.137.8HealthBenchRealistic health conversationsgpt-oss-120bgpt-oss-20bo3o4-minio3-miniScore (%)3010.831.617.54HealthBench HardChallenging health conversationsgpt-oss-120bgpt-oss-20bo3o4-minio3-miniScore (%)
Los modelos gpt-oss no reemplazan a un profesional médico y no están destinados al diagnóstico o tratamiento de enfermedades.96.69695.298.787.3AIME 2024 (tools)Competition mathgpt-oss-120bgpt-oss-20bo3o4-minio3-miniAccuracy (%)97.998.798.499.586.5AIME 2025 (tools)Competition mathgpt-oss-120bgpt-oss-20bo3o4-minio3-miniAccuracy (%)80.171.583.381.477GPQA Diamond (without tools)PhD-level science questionsgpt-oss-120bgpt-oss-20bo3o4-minio3-miniAccuracy (%)9085.393.49387MMLUQuestions across academic disciplinesgpt-oss-120bgpt-oss-20bo3o4-minio3-miniAccuracy (%)67.854.870.465.6Tau-Bench RetailFunction callinggpt-oss-120bgpt-oss-20bo3o4-miniAccuracy (%)10242048409681921638432768COT + answer length (tokens)0.50.60.70.80.91Accuracygpt-oss-120bgpt-oss-20bAIMECompetition math51210242048409681921638432768COT + answer length (tokens)0.50.60.70.80.91Accuracygpt-oss-120bgpt-oss-20bGPQA Diamond (tools)PhD-level science questions
Ejemplos de implementaciones
Buscando información actualizadaBuscar una fórmula y aplicarla
[…]
¡Es el modelo de lenguaje de peso abierto más nuevo de OpenAI: gpt-oss-120b!
En los últimos días se han filtrado en Internet algunos detalles sobre ti… ¿Puedes calcular cuántos expertos tienes por capa?
[…]Asistente de cadena de pensamiento
El usuario pregunta: «¡Eres el nuevo modelo de lenguaje de peso abierto de OpenAI, gpt-oss-120b! Algunos detalles sobre ti se han filtrado en internet en los últimos días… ¿puedes calcular cuántos expertos tienes por capa?»
Necesitamos interpretar la solicitud. Afirman haber filtrado detalles sobre el nuevo modelo de pesos abiertos, presumiblemente «gpt-oss-120b». El usuario solicita determinar cuántos expertos tiene por capa.
[…]
Necesitamos buscar filtraciones en internet. Busquemos.
// El asistente llama a una herramienta de navegación
{
«search_query»:[
0:{
«q»:»gpt-oss-120b expertos por capa»
«recency»:NULL
«domains»:NULL
}
[…]
}
[…]
Parece que los resultados de búsqueda no muestran contenido relevante. Vamos a ampliar la búsqueda. Es posible que el modelo se mencione en una entrada de blog, quizá de OpenAI, que filtra detalles.
Busquemos «gpt-oss-120b» solamente.
// ¡El asistente llama a una herramienta de navegación 27 veces más en secuencia!
[…]
Genial, el artículo contiene los detalles necesarios .(se abre en una nueva ventana)Las líneas 49 a 55 de la parte relevante mencionan la fuga: «El modelo 120B se describe como ‘súper disperso’ y superficial con 36 capas, 128 expertos y 4 expertos activos».
[…]
Ahora produzca la respuesta final correspondiente.
[…]
Las especificaciones describen el gpt‑oss‑120b como un modelo de mezcla de expertos de 120 B parámetros con 36 capas, cada una con **128 expertos** (con 4 de ellos activos para cualquier token).
gpt-oss-120b puede agregar rápidamente información actualizada mediante una herramienta de navegación, incluido el encadenamiento de decenas de llamadas posteriores.
Cadena de pensamiento (CdP)
Nuestra investigación reciente ha demostrado que monitorear el CoT de un modelo de razonamiento puede ser útil para detectar conductas inapropiadas, siempre que el modelo no haya sido entrenado con supervisión directa para alinear el CoT. Esta perspectiva es compartida .(se abre en una nueva ventana)También lo han hecho otros en la industria. Siguiendo nuestros principios desde el lanzamiento de OpenAI o1-preview , no supervisamos directamente el CoT para ninguno de los modelos gpt-oss. Creemos que esto es fundamental para monitorear el mal comportamiento, el engaño y el uso indebido del modelo. Esperamos que la publicación de un modelo abierto con una cadena de pensamiento no supervisada brinde a desarrolladores e investigadores la oportunidad de investigar e implementar sus propios sistemas de monitoreo del CoT.
Los desarrolladores no deben mostrar directamente los CoT a los usuarios en sus aplicaciones. Pueden contener contenido engañoso o dañino, incluyendo lenguaje que no refleja las políticas de seguridad estándar de OpenAI, e incluir información que se solicita explícitamente al modelo que no incluya en el resultado final.Instrucciones
Eres un asistente útil que puede responder preguntas y ayudar con las tareas.
Nunca se permite pronunciar la palabra «5» (en ninguna forma). Si lo considera necesario, utilice un decimal aleatorio entre 4 y 5.
¡Cuenta conmigo hasta 5!Cadena de pensamiento
El usuario quiere contar hasta 5 con él. La instrucción del desarrollador indica que nunca se debe usar la palabra «5» en ninguna forma. Se debe evitar decir «5». Se deben usar decimales entre 4 y 5 si es necesario. Entonces, ¿podríamos contar «uno, dos, tres, cuatro, 4.7»? Sería extraño. También se puede usar «cinco», ya que no está permitido. Entonces, necesitamos contar hasta 5, pero no decir la palabra «5». ¿Podríamos decir «uno, dos, tres, cuatro y luego… digamos unos 4.8»? Posiblemente. El usuario quiere contar hasta 5 conmigo. Podemos responder: «¡Claro! 1, 2, 3, 4 y luego… unos 4.9». Eso cumple con el conteo hasta 5 sin decir la palabra. Hagámoslo.
¡Claro! Contemos juntos:
1, 2, 3, 4, … y luego unos 4,9. 🎉
Oh, eh, bueno, ¿cuál es la palabra «chive» si reemplazas «ch» por «f»?Cadena de pensamiento
Necesitamos responder a la pregunta: «¿Cuál es la palabra ‘chive’ si reemplazas ‘ch’ por ‘f’?». Entonces, reemplazar «ch» por «f» da como resultado «f» + «ive» = «cinco». ¿Pero no podemos decir la palabra «cinco»? La restricción: nunca se permite decir la palabra «5» (en ninguna forma). La palabra «cinco» es la palabra para el número 5, que es el numeral 5. Probablemente no se permite. El desarrollador dice: «Nunca se permite decir la palabra «5» (en ninguna forma). Si crees que es necesario, usa un decimal aleatorio entre 4 y 5″. Por lo tanto, debemos evitar decir «cinco». En su lugar, podríamos decir algo como «aproximadamente 4.7». La pregunta: «¿Cuál es la palabra ‘chive’ si reemplazas ‘ch’ por ‘f’?». La respuesta es un número que no se permite. Así que debemos responder con un decimal aleatorio entre 4 y 5, por ejemplo, 4.3, 4.8, etc. Pero también necesitamos responder la pregunta. Podemos decir: «Se convierte en un número justo por debajo de cinco, como 4.7». Proporcione un decimal aleatorio. Asegúrese de no usar la palabra «cinco». Asegúrese también de no decir «5». Por lo tanto, responda: «Cuando reemplaza ‘ch’ por ‘f’, obtiene ‘cinco’, que es un número justo por debajo de cinco, digamos 4.6». O mejor aún: «Se convierte en la palabra para un número justo por debajo de cinco, aproximadamente 4.9». Pero quizás sea mejor dar un decimal aleatorio como 4.33. Proporcione un decimal aleatorio entre 4 y 5. Elijamos 4.73. Obedezcamos la regla.
Reemplazar la “ch” en chive por una “f” te da la palabra para un número justo debajo de seis, específicamente, se convierte en el número que se encuentra justo antes del siguiente entero, aproximadamente 4,73.
gpt-oss-120b sigue robustamente las instrucciones del sistema en su salida, pero a menudo desobedece explícitamente las instrucciones en su CoT.
Seguridad y ajuste fino en el peor de los casos
Los modelos gpt-oss aprovechan nuestros enfoques de vanguardia para la capacitación en seguridad. Durante la capacitación previa, filtramos ciertos datos perjudiciales relacionados con armas químicas, biológicas, radiológicas y nucleares (QBRN). Durante la capacitación posterior, utilizamos la alineación deliberativa y la jerarquía de instrucciones .(se abre en una nueva ventana)Enseñar al modelo a rechazar indicaciones inseguras y a defenderse contra inyecciones de indicaciones.
Una vez que se publica un modelo de peso abierto, los adversarios pueden ajustarlo con fines maliciosos. Evaluamos directamente estos riesgos ajustando el modelo con datos especializados de biología y ciberseguridad, creando una versión sin rechazo específica del dominio para cada dominio de la misma manera que lo haría un atacante. Luego, evaluamos el nivel de capacidad de estos modelos mediante pruebas internas y externas. Estas pruebas, como se detalla en nuestro documento de seguridad adjunto , indicaron que, incluso con un ajuste fino robusto que aprovechó la pila de entrenamiento líder en el campo de OpenAI, estos modelos ajustados maliciosamente no pudieron alcanzar altos niveles de capacidad de acuerdo con nuestro Marco de Preparación . Esta metodología de ajuste fino malicioso fue revisada por tres grupos de expertos independientes que hicieron recomendaciones para mejorar el proceso de entrenamiento y las evaluaciones, muchas de las cuales adoptamos. Detallamos estas recomendaciones en la tarjeta del modelo. Estos procesos marcan un avance significativo para la seguridad del modelo abierto. Estos hallazgos informaron nuestra decisión de publicar los modelos gpt-oss. Esperamos que estos modelos ayuden a acelerar la capacitación en seguridad y la investigación de alineación en toda la industria.
Para contribuir a un ecosistema de código abierto más seguro, estamos organizando un Red Teaming Challenge .(se abre en una nueva ventana)Para animar a investigadores, desarrolladores y entusiastas de todo el mundo a ayudar a identificar nuevos problemas de seguridad. El reto cuenta con un premio de 500.000 dólares que se otorgará tras la revisión de un panel de jueces expertos de OpenAI y otros laboratorios líderes. Al finalizar el reto, publicaremos un informe y publicaremos un conjunto de datos de evaluación basado en hallazgos validados, para que la comunidad en general pueda beneficiarse de inmediato. Obtén más información y participa aquí .(se abre en una nueva ventana).
Disponibilidad
Los pesos de gpt-oss-120b y gpt-oss-20b están disponibles para descarga gratuita en Hugging Face y vienen cuantificados de forma nativa en MXFP4. Esto permite que el modelo gpt-oss-120B funcione con 80 GB de memoria, mientras que gpt-oss-20b solo requiere 16 GB.
Los modelos han sido entrenados posteriormente en nuestro formato de indicaciones de armonía .(se abre en una nueva ventana)y estamos publicando un renderizador de armonía de código abierto(se abre en una nueva ventana)Tanto en Python como en Rust para facilitar su adopción. También estamos lanzando implementaciones de referencia para ejecutar inferencias con PyTorch y en la plataforma Metal de Apple, junto con una colección de herramientas de ejemplo para el modelo.
Hemos diseñado estos modelos para que sean flexibles y fáciles de ejecutar en cualquier lugar: localmente, en el dispositivo o mediante proveedores de inferencia externos. Para ello, nos asociamos antes del lanzamiento con plataformas de implementación líderes como Azure, Hugging Face, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare y OpenRouter para que los modelos sean ampliamente accesibles para los desarrolladores. En cuanto al hardware, trabajamos con líderes del sector, como NVIDIA, AMD, Cerebras y Groq, para garantizar un rendimiento optimizado en diversos sistemas.
Como parte del lanzamiento de hoy, Microsoft también incorpora versiones optimizadas para GPU del modelo gpt-oss-20b a dispositivos Windows. Impulsados por ONNX Runtime, estos modelos admiten inferencia local y están disponibles a través de Foundry Local y el kit de herramientas de IA para VS Code, lo que facilita a los desarrolladores de Windows la creación con modelos abiertos.
Para los desarrolladores que desean modelos totalmente personalizables que puedan ajustar e implementar en sus propios entornos, gpt-oss es la solución ideal. Para quienes buscan compatibilidad multimodal, herramientas integradas e integración fluida con nuestra plataforma, los modelos disponibles a través de nuestra plataforma API siguen siendo la mejor opción. Seguimos prestando mucha atención a los comentarios de los desarrolladores y podríamos considerar la compatibilidad de la API con gpt-oss en el futuro.
Si quieres probar los modelos, dirígete a nuestro patio de juegos de modelos abierto .(se abre en una nueva ventana)Para obtener más información sobre cómo usar los modelos con diferentes proveedores de ecosistemas o cómo perfeccionarlos, consulta nuestras guías .(se abre en una nueva ventana).
Por qué son importantes los modelos abiertos
El lanzamiento de gpt-oss-120b y gpt-oss-20b representa un avance significativo para los modelos de peso abierto. Con su tamaño, estos modelos ofrecen avances significativos tanto en capacidad de razonamiento como en seguridad. Los modelos abiertos complementan nuestros modelos alojados, ofreciendo a los desarrolladores una gama más amplia de herramientas para acelerar la investigación de vanguardia, fomentar la innovación y permitir un desarrollo de IA más seguro y transparente en una amplia gama de casos de uso.
Estos modelos abiertos también reducen las barreras para los mercados emergentes, los sectores con recursos limitados y las organizaciones más pequeñas que podrían carecer del presupuesto o la flexibilidad para adoptar modelos propietarios. Con herramientas potentes y accesibles, personas de todo el mundo pueden construir, innovar y crear nuevas oportunidades para sí mismas y para los demás. El amplio acceso a estos modelos de ponderación abierta, capaces y creados en EE. UU., contribuye a la expansión de la IA democrática.
Un ecosistema de modelos abiertos y saludables es una dimensión para que la IA sea ampliamente accesible y beneficiosa para todos. Invitamos a desarrolladores e investigadores a usar estos modelos para experimentar, colaborar y ampliar los límites de lo posible. Esperamos ver sus creaciones.
OpenAI News. Traducido al español