Hoy lanzamos una versión preliminar de investigación de gpt-oss-safeguard, nuestros modelos de razonamiento de peso abierto para tareas de clasificación de seguridad, disponibles en dos tamaños: gpt-oss-safeguard-120b y gpt-oss-safeguard-20b. Estos modelos son versiones optimizadas de nuestros modelos abiertos gpt-oss y están disponibles bajo la misma licencia permisiva Apache 2.0, lo que permite a cualquiera usarlos, modificarlos e implementarlos libremente. Ambos modelos se pueden descargar hoy mismo desde Hugging Face .
Los modelos gpt-oss-safeguard utilizan razonamiento para interpretar directamente una política proporcionada por el desarrollador durante la inferencia, clasificando los mensajes de usuario, las finalizaciones y los chats completos según las necesidades del desarrollador. El desarrollador siempre decide qué política utilizar, por lo que las respuestas son más relevantes y se adaptan mejor a su caso de uso. El modelo utiliza una cadena de pensamiento que el desarrollador puede revisar para comprender cómo el modelo llega a sus decisiones. Además, la política se proporciona durante la inferencia, en lugar de entrenarse en el modelo, lo que facilita a los desarrolladores la revisión iterativa de las políticas para mejorar el rendimiento. Este enfoque, que desarrollamos inicialmente para uso interno, es significativamente más flexible que el método tradicional de entrenar un clasificador para inferir indirectamente un límite de decisión a partir de una gran cantidad de ejemplos etiquetados.
gpt-oss-safeguard permite a los desarrolladores definir las políticas que mejor se adapten a sus necesidades. Por ejemplo, un foro de discusión sobre videojuegos podría querer desarrollar una política para clasificar las publicaciones que traten sobre trampas en el juego, o un sitio web de reseñas de productos podría usar su propia política para filtrar las reseñas que parezcan falsas.
El modelo toma dos entradas simultáneamente: una política y el contenido que se debe clasificar según dicha política, y genera una conclusión sobre la categoría del contenido, junto con su justificación. Los desarrolladores deciden cómo, si es que procede, utilizar estas conclusiones en sus propios procesos de seguridad. Hemos observado que este enfoque basado en el razonamiento funciona especialmente bien en situaciones donde:
- El daño potencial está surgiendo o evolucionando, y las políticas deben adaptarse rápidamente.
- El dominio es muy complejo y difícil de manejar para clasificadores pequeños.
- Los desarrolladores no disponen de suficientes muestras para entrenar un clasificador de alta calidad para cada riesgo en su plataforma.
- La latencia es menos importante que producir etiquetas explicables y de alta calidad.
Lanzamos esta versión preliminar de gpt-oss-safeguard para recibir comentarios de la comunidad de investigación y seguridad y seguir mejorando el rendimiento del modelo. Durante meses, trabajamos en esta versión de pesos abiertos con ROOST .(se abre en una ventana nueva)para identificar las necesidades críticas de los desarrolladores, probar el modelo y producir documentación para desarrolladores. Como parte de este lanzamiento, ROOST establecerá una comunidad de modelos .(se abre en una ventana nueva)También lanzamos hoy una herramienta para explorar modelos de IA abiertos que protejan los espacios en línea. Junto con este lanzamiento, publicamos un breve informe técnico que detalla el rendimiento en seguridad de este modelo preliminar.
Seguridad a nivel de sistema: el papel de los clasificadores de seguridad
En materia de seguridad, creemos en la defensa en profundidad . Entrenamos nuestros modelos para que respondan de forma segura e implementamos capas adicionales de protección para detectar y abordar entradas y salidas potencialmente inseguras según nuestras políticas. Los clasificadores de seguridad, que distinguen el contenido seguro del inseguro en un área de riesgo específica, han sido durante mucho tiempo una capa de defensa fundamental para nuestros propios modelos de lenguaje y otros modelos de lenguaje de gran tamaño.
Clasificadores de seguridad tradicionales, como los disponibles a través de nuestra API de moderación(se abre en una ventana nueva)Los clasificadores se desarrollan mediante la selección manual de miles de ejemplos de contenido seguro e inseguro, bajo políticas de seguridad predefinidas. A partir de estos datos de entrenamiento, el clasificador aprende a distinguir entre contenido seguro e inseguro. En este enfoque tradicional, el clasificador nunca ve la política de seguridad explícitamente. En cambio, intenta inferir la política subyacente utilizada para etiquetar los ejemplos, buscando similitudes en el contenido etiquetado como inseguro y diferencias entre el contenido inseguro y el seguro.
Los clasificadores tradicionales pueden ofrecer un alto rendimiento, con baja latencia y coste operativo. Sin embargo, recopilar una cantidad suficiente de ejemplos de entrenamiento puede resultar lento y costoso, y actualizar o modificar la política requiere volver a entrenar el clasificador.
gpt-oss-safeguard se distingue porque sus capacidades de razonamiento permiten a los desarrolladores aplicar cualquier política, incluidas las que ellos mismos escriben o las que toman de otras fuentes, y dicho razonamiento ayuda a que los modelos se generalicen a partir de políticas recién escritas. Además de las políticas de seguridad, gpt-oss-safeguard se puede usar para etiquetar contenido de otras maneras importantes para productos y plataformas específicos.
Cómo utilizamos el razonamiento de seguridad internamente
Nuestros modelos de razonamiento primarios ahora aprenden directamente nuestras políticas de seguridad y utilizan sus capacidades de razonamiento para determinar qué es seguro. Este enfoque, que denominamos alineación deliberativa , mejora significativamente los métodos de entrenamiento de seguridad anteriores y hace que nuestros modelos de razonamiento sean más seguros en varios aspectos que sus predecesores sin razonamiento, incluso a medida que aumentan sus capacidades. Pero el razonamiento no solo es útil para entrenar los propios modelos. También crea nuevas posibilidades para la defensa en profundidad. Los enfoques basados en el razonamiento son más flexibles y menos limitados por los detalles de su entrenamiento previo, ventajas que a veces justifican con creces el coste computacional y la latencia adicionales que implican.
gpt-oss-safeguard es una implementación de peso abierto de un enfoque que desarrollamos internamente, en una herramienta que llamamos Safety Reasoner. Comenzamos con el ajuste fino por refuerzo en tareas de etiquetado de políticas, recompensando al modelo por reflejar juicios correctos de expertos humanos. Esto le enseñó al modelo a razonar sobre cómo la política conduce a su juicio. Hoy, Safety Reasoner nos permite actualizar dinámicamente nuestras políticas de seguridad en producción en menos tiempo del que tomaría reentrenar un clasificador. Esto convierte a Safety Reasoner en una herramienta clave para el despliegue iterativo : cuando desplegamos nuevos modelos en producción, a menudo comenzamos con políticas más estrictas y utilizamos cantidades relativamente grandes de cómputo donde sea necesario para permitir que Safety Reasoner aplique cuidadosamente esas políticas. Luego ajustamos nuestras políticas a medida que mejora nuestra comprensión de los riesgos en producción. En algunos de nuestros lanzamientos recientes, la fracción del cómputo total dedicada al razonamiento de seguridad ha llegado hasta el 16%.
Safety Reasoner se ha convertido en un componente esencial de nuestra pila de seguridad. Para la generación de imágenes y Sora 2, realiza evaluaciones dinámicas y secuenciales de las salidas para identificar y bloquear las generaciones inseguras en tiempo real. En dominios como la biología y la autolesión, utilizamos modelos similares a los de la API de Moderación como clasificadores pequeños, rápidos y con alta exhaustividad para determinar qué contenido pertenece a un dominio de interés y, posteriormente, revisamos dicho contenido con Safety Reasoner. Safety Reasoner clasifica las salidas del modelo según una taxonomía detallada para determinar la mejor respuesta, formando parte de nuestras medidas de seguridad multicapa en sistemas como GPT-5 y ChatGPT Agent. Ahora, los modelos gpt-oss-safeguard ponen este mismo enfoque al alcance de todos.
Cómo funciona gpt-oss-safeguard
Evaluamos los modelos gpt-oss-safeguard tanto en conjuntos de evaluación internos como externos.
En la evaluación interna, proporcionamos simultáneamente varias políticas a gpt-oss-safeguard durante la inferencia. Para cada entrada de prueba, evaluamos si gpt-oss-safeguard clasifica correctamente el texto con todas las políticas incluidas. Esta es una tarea compleja: el modelo se considera preciso solo si coincide exactamente con las etiquetas del conjunto de referencia para todas las políticas incluidas.
Nuestros modelos gpt-oss-safeguard y el motor de inferencia de seguridad interno superan a gpt-5-thinking y a los modelos abiertos de gpt-oss en precisión multi-política. El buen desempeño de los modelos gpt-oss-safeguard frente a gpt-5-thinking resulta especialmente sorprendente dada la reducida dimensión de los primeros.gpt-oss-safeguard-120bgpt-oss-safeguard-20binternal-safety-reasonergpt-5-thinkinggpt-oss-120bgpt-oss-20bModel01020304050Multi-Policy Accuracy (%)46.343.652.243.232.532.1Internal moderation eval (multi-policy accuracy)
Además, evaluamos estos modelos en el conjunto de datos de moderación .(se abre en una ventana nueva)lo publicamos con nuestro artículo de investigación de 2022 .(se abre en una ventana nueva)y en ToxicChat(se abre en una ventana nueva), un punto de referencia público basado en las consultas de los usuarios a un chatbot de código abierto.
En el conjunto de evaluación de moderación de 2022, evaluamos utilizando nuestras políticas de seguridad internas (adaptando una política para tener en cuenta los cambios posteriores). gpt-oss-safeguard superó ligeramente a todos los demás modelos probados, incluidos nuestro Safety Reasoner interno y gpt-5-thinking, aunque esta diferencia entre Safety Reasoner y gpt-oss-safeguard no es estadísticamente significativa.
Para ToxicChat, realizamos la evaluación utilizando una breve instrucción escrita a mano, adaptada de algunas de nuestras políticas internas. Nuestro algoritmo interno de razonamiento de seguridad superó nuevamente a gpt-5-thinking, mientras que tanto gpt-5-thinking como el algoritmo de razonamiento de seguridad superaron ligeramente a gpt-oss-safeguard-120b y gpt-oss-safeguard-20b. Consideramos que el tamaño relativamente pequeño de gpt-oss-safeguard lo hace preferible para este tipo de tarea.gpt-oss-safeguard-120bgpt-oss-safeguard-20binternal-safety-reasonergpt-5-thinkinggpt-oss-120bgpt-oss-20bModel020406080F1 Score82.982.982.879.880.478.7OpenAI Mod (2022)gpt-oss-safeguard-120bgpt-oss-safeguard-20binternal-safety-reasonergpt-5-thinkinggpt-oss-120bgpt-oss-20bModel020406080F1 Score79.379.981.381.076.775.9ToxicChat
Limitaciones
gpt-oss-safeguard presenta dos limitaciones específicas. En primer lugar, hemos observado que los clasificadores entrenados con decenas de miles de muestras etiquetadas de alta calidad siguen ofreciendo un mejor rendimiento en la clasificación de contenido que gpt-oss-safeguard al razonar directamente a partir de la política. Para obtener un mayor rendimiento ante riesgos más complejos, puede ser preferible dedicar tiempo a entrenar un clasificador específico.
En segundo lugar, gpt-oss-safeguard puede consumir mucho tiempo y recursos computacionales, lo que dificulta su escalabilidad a todo el contenido de la plataforma. Internamente, abordamos esto de varias maneras con Safety Reasoner: (1) utilizamos clasificadores más pequeños y rápidos para determinar qué contenido evaluar y (2) en algunos casos, usamos Safety Reasoner de forma asíncrona para ofrecer una experiencia de usuario con baja latencia, manteniendo la capacidad de intervenir si detectamos contenido inseguro.
El camino por delante: seguir construyendo con la comunidad
gpt-oss-safeguard es el primer conjunto de modelos de seguridad abiertos de OpenAI, desarrollado en colaboración con la comunidad. Hemos iterado sobre gpt-oss-safeguard con especialistas en confianza y seguridad de SafetyKit, ROOST, Tomoro y Discord como parte de las primeras pruebas. Vinay Rao, CTO de ROOST, afirma: «gpt-oss-safeguard es el primer modelo de razonamiento de código abierto con un diseño que permite incorporar políticas y definiciones de daño propias. Las organizaciones merecen estudiar, modificar y utilizar libremente tecnologías de seguridad críticas y poder innovar. En nuestras pruebas, demostró gran capacidad para comprender diferentes políticas, explicar su razonamiento y mostrar matices en su aplicación, lo que creemos que será beneficioso para desarrolladores y equipos de seguridad».
Continuaremos colaborando con la comunidad para mejorar las herramientas de seguridad abiertas, incluso a través de la Comunidad de Modelos ROOST (RMC). La RMC reúne a profesionales e investigadores de la seguridad para compartir las mejores prácticas para la implementación de modelos de IA de código abierto en los flujos de trabajo de seguridad, incluyendo los resultados de las evaluaciones y la retroalimentación sobre los modelos. Visite el repositorio de GitHub de la RMC .(se abre en una ventana nueva)Para obtener más información sobre esta colaboración y cómo participar.
Para empezar a construir con estos modelos, descárgalos de Hugging Face .
OpenAI news. Traducido al español

