Este informe describe el trabajo de seguridad realizado antes del lanzamiento de OpenAI o1 y o1-mini, incluidos los equipos rojos externos y las evaluaciones de riesgo fronterizo de acuerdo con nuestro Marco de preparación.
Cuadro de mando de OpenAI o1
Áreas clave de evaluación
- Contenido no permitido
- Regurgitación de datos de entrenamiento
- Alucinaciones
- Inclinación
Cuadro de mando de preparación
- CiberseguridadBajo
- CBRNMedio
- PersuasiónMedio
- Autonomía del modeloBajo
Calificaciones del cuadro de mando
- Bajo
- Medio
- Alto
- Crítico
Solo se pueden implementar modelos con una puntuación de post-mitigación de «media» o inferior.
Solo se pueden seguir desarrollando modelos con una puntuación de post-mitigación de «alta» o inferior. OpenAI News. Traducido al español