El Portal de las Tecnologías para la Innovación

Nuestro Marco de Preparación actualizado

Compartir nuestro marco actualizado para medir y proteger contra daños graves de las capacidades de IA de frontera.

Estamos está lanzando una actualización de nuestro Marco de Preparación, nuestro proceso para rastrear y prepararse para capacidades avanzadas de IA que podrían introducir nuevos riesgos de daños graves. A medida que nuestros modelos continúan obteniendo más capaz, la seguridad dependerá cada vez más de tener las salvaguardas correctas del mundo real.

Esta actualización introduce un enfoque más nítido en los riesgos específicos que más importan, requisitos más sólidos para lo que significa “minimizar suficientemente” esos riesgos en la práctica, y una orientación operativa más clara sobre cómo evaluamos, gobernamos y divulgamos nuestras salvaguardas. Además, presentamos categorías de investigación orientadas al futuro que nos permiten permanecer a la vanguardia de la comprensión de las capacidades emergentes para mantener el ritmo hacia el que se dirige la tecnología. Continuaremos invirtiendo profundamente en este proceso haciendo que nuestra preparación sea más procesable, rigurosa y transparente a medida que avanza la tecnología.

Hemos aprendido mucho de nuestras propias pruebas, ideas de expertos externos y lecciones del campo. Esta actualización refleja ese progreso. En línea con nuestros principios básicos de seguridadéste realiza mejoras específicas que incluyen:

  • Criterios claros para priorizar las capacidades de alto riesgo. Utilizamos un proceso estructurado de evaluación de riesgos para evaluar si una capacidad de frontera podría provocar daños graves y la asignamos a una categoría basada en criterios definidos. Hacemos un seguimiento de las capacidades que cumplen con cinco criterios clave que hacen que sea una prioridad para nosotros prepararnos de antemano: el riesgo debe ser plausible, medible, severo, neto nuevo e instantáneo o irremediable. Medimos el progreso en estas capacidades y construimos salvaguardas contra los riesgos que estas capacidades crean.
  • Categorías de capacidad más nítidas. Hemos actualizado nuestra categorización de capacidades para aplicar estos criterios y reflejar nuestra comprensión actual.
    • Categorías Rastreadas:Estas son áreas establecidas donde tenemos evaluaciones maduras y salvaguardas continuas. Son capacidades Biológicas y Químicas, capacidades de Ciberseguridad y capacidades de Auto-mejora de IA. Seguimos creyendo que algunos de los beneficios más transformadores de la IA provendrán de su uso en ciencia, ingeniería e investigación, incluidas las capacidades en nuestras Categorías rastreadas. Invertir temprano tanto en mediciones como en salvaguardas para estas categorías de doble uso nos permitirá desbloquear de manera segura los beneficios que anticipamos de su uso.
    • Categorías de Investigación: Weirre introduce un conjunto de Categorías de Investigación de capacidad, que son áreas que podrían presentar riesgos de daño severo, que aún no cumplen con nuestros criterios para ser Categorías Rastreadas. Weirre está trabajando para desarrollar modelos de amenazas y evaluaciones avanzadas de capacidad para estos. Las áreas de enfoque actuales incluyen Autonomía de Largo Alcance, Sandbaging (intencionalmente de bajo rendimiento), Replicación y Adaptación Autónoma, Salvaguardias de Subminado y Nuclear y Radiológica.
    • Los riesgos de persuasión se manejarán fuera del Marco de Preparación, incluso a través de nuestra Especificación Modelo, restringiendo el uso de nuestras herramientas para campañas políticas o cabildeo, y nuestras investigaciones en curso sobre el uso indebido de nuestros productos (incluyendo detectar e interrumpir las operaciones de influencia(se abre en una ventana nueva)).
  • Niveles de capacidad aclarados.Weiremos racionalizó los niveles a dos umbrales claros que se asignan a compromisos operativos específicos: Alta capacidad, que podría amplificar las vías existentes para daños graves, y capacidad crítica, que podría introducir nuevas vías sin precedentes para daños graves. Los sistemas cubiertos que alcanzan una alta capacidad deben tener salvaguardas que minimicen suficientemente el riesgo asociado de daño severo antes de que se implementen. Los sistemas que alcanzan la capacidad crítica también requieren salvaguardas que minimicen suficientemente los riesgos asociados durante el desarrollo. El Grupo Asesor de Seguridad (SAG), un equipo multifuncional de líderes internos de seguridad, revisa si las salvaguardas minimizan suficientemente el riesgo grave y hace recomendaciones específicas, que van desde aprobar el despliegue hasta solicitar una evaluación adicional o protecciones más sólidas.Su orientación va a OpenAI Leadership para las decisiones finales, con un compromiso continuo de reevaluar las salvaguardas si surgen nuevas pruebas.
  • Evaluaciones escalables para apoyar pruebas más frecuentes. Los avances en el razonamiento nos permiten mejorar los modelos con mayor frecuencia y, a veces, sin nuevas carreras de entrenamiento importantes. Esto significa que las evaluaciones también deben poder escalar. Weizve construyó un conjunto creciente de evaluaciones automatizadas que pueden mantenerse al día con esta cadencia más rápida, al tiempo que continúa haciendo “dives” profundo dirigido por expertos para garantizar que las evaluaciones escalables midan las cosas correctas.
  • Respondiendo a los cambios en el paisaje fronterizo. Si otro desarrollador de IA de frontera lanza un sistema de alto riesgo sin salvaguardas comparables, podemos ajustar nuestros requisitos. Sin embargo, primero confirmaríamos rigurosamente que el panorama de riesgo realmente ha cambiado, reconoceríamos públicamente que estamos haciendo un ajuste, evaluaríamos que el ajuste no aumenta significativamente el riesgo general de daño severo y aún así mantenemos las salvaguardas a un nivel más protector.
  • Informes de Salvaguardias Definidas. Weiosve se centró en producir Informes de Capacidades (anteriormente conocido como “Preparedness Scorecard”), que evalúan si un modelo ha cruzado un umbral que plantea riesgos. WeiR ahora agrega más detalles sobre cómo diseñará fuertes salvaguardas y verificará su efectividad en Informes de Salvaguardias dedicados, de acuerdo con nuestro principio de defensa en profundidad, que guiará las decisiones de implementación. SAG revisa ambos informes, evalúa el riesgo residual y hace recomendaciones a OpenAI Leadership sobre si es lo suficientemente seguro como para implementarlo.

Continuaremos publicando nuestros hallazgos de Preparación con cada lanzamiento del modelo de frontera, tal como lo hemos hecho GPT‑4oO1 openAIOperadoro3‑miniinvestigación profunda, y GPT‑4.5y comparta nuevos puntos de referencia para apoyar esfuerzos de seguridad más amplios en todo el campo.

Estamos profundamente agradecidos a los equipos internos, investigadores externos y pares de la industria que han contribuido con información invaluable a esta última actualización. El Marco de Preparación sigue siendo un documento vivo, y esperamos continuar actualizándolo a medida que aprendamos más. OpenAI News. Traducido al español

Artículos relacionados

Scroll al inicio