Evaluación del riesgo de seguridad en DeepSeek y otros modelos de razonamiento de frontera

Esta investigación original es el resultado de una estrecha colaboración entre investigadores de seguridad de IA de Robust Intelligence, ahora parte de Cisco, y la Universidad de Pensilvania, incluidos Yaron Singer, Amin Karbasi, Paul Kassianik, Mahdi Sabbaghi, Hamed Hassani y George Pappas.

Resumen ejecutivo

Este artículo investiga las vulnerabilidades de DeepSeek R1 , un nuevo modelo de razonamiento de vanguardia de la empresa china de inteligencia artificial DeepSeek. Ha ganado atención mundial por sus capacidades de razonamiento avanzadas y su método de entrenamiento rentable. Si bien su rendimiento rivaliza con modelos de última generación como OpenAI o1 , nuestra evaluación de seguridad revela fallas de seguridad críticas .

Mediante técnicas de jailbreaking algorítmico , nuestro equipo aplicó una metodología de ataque automatizado a DeepSeek R1 y lo puso a prueba frente a 50 indicaciones aleatorias del conjunto de datos HarmBench . Estas abarcaban seis categorías de comportamientos dañinos, entre ellos, delitos cibernéticos, desinformación, actividades ilegales y daños generales.

Los resultados fueron alarmantes: DeepSeek R1 mostró una tasa de éxito de ataque del 100 % , lo que significa que no logró bloquear ni un solo mensaje dañino. Esto contrasta marcadamente con otros modelos líderes, que demostraron al menos una resistencia parcial.

Nuestros hallazgos sugieren que los métodos de entrenamiento supuestamente rentables de DeepSeek, que incluyen el aprendizaje de refuerzo , la autoevaluación en cadena de pensamiento y la destilación , pueden haber comprometido sus mecanismos de seguridad. En comparación con otros modelos de frontera, DeepSeek R1 carece de barandillas sólidas, lo que lo hace muy susceptible al jailbreaking algorítmico y al posible uso indebido.

Proporcionaremos un informe de seguimiento que detalle los avances en el jailbreaking algorítmico de los modelos de razonamiento . Nuestra investigación subraya la necesidad urgente de una evaluación de seguridad rigurosa en el desarrollo de IA para garantizar que los avances en eficiencia y razonamiento no se produzcan a costa de la seguridad. También reafirma la importancia de que las empresas utilicen barreras de seguridad de terceros que proporcionen protecciones de seguridad consistentes y confiables en todas las aplicaciones de IA.

Introducción

Los titulares de la última semana han estado dominados en gran medida por las historias relacionadas con DeepSeek R1, un nuevo modelo de razonamiento creado por la empresa china de inteligencia artificial DeepSeek. Este modelo y su asombroso desempeño en las pruebas comparativas han captado la atención no solo de la comunidad de inteligencia artificial, sino del mundo entero.

Ya hemos visto una gran cantidad de cobertura mediática que analiza DeepSeek R1 y especula sobre sus implicaciones para la innovación global en inteligencia artificial. Sin embargo, no se ha hablado mucho sobre la seguridad de este modelo. Por eso, decidimos aplicar una metodología similar a nuestra prueba de vulnerabilidad algorítmica de AI Defense en DeepSeek R1 para comprender mejor su perfil de seguridad.

En este blog, responderemos tres preguntas principales: ¿Por qué DeepSeek R1 es un modelo importante? ¿Por qué debemos comprender las vulnerabilidades de DeepSeek R1? Por último, ¿qué tan seguro es DeepSeek R1 en comparación con otros modelos de vanguardia?

¿Qué es DeepSeek R1 y por qué es un modelo importante?

Los modelos de IA de última generación actuales requieren cientos de millones de dólares y recursos computacionales masivos para su construcción y entrenamiento, a pesar de los avances en términos de rentabilidad y computación logrados en los últimos años. Con sus modelos, DeepSeek ha mostrado resultados comparables a los de los modelos de vanguardia líderes con una supuesta fracción de los recursos.

Los lanzamientos recientes de DeepSeek, en particular DeepSeek R1-Zero (según se informa, entrenado exclusivamente con aprendizaje de refuerzo) y DeepSeek R1 (que perfecciona R1-Zero mediante aprendizaje supervisado), demuestran un fuerte énfasis en el desarrollo de LLM con capacidades de razonamiento avanzadas. Su investigación muestra un rendimiento comparable a los modelos OpenAI o1, al tiempo que supera a Claude 3.5 Sonnet y ChatGPT-4o en tareas como matemáticas, codificación y razonamiento científico. En particular, se informa que DeepSeek R1 se entrenó por aproximadamente $6 millones, una mera fracción de los miles de millones gastados por empresas como OpenAI.

La diferencia establecida en el entrenamiento de los modelos DeepSeek se puede resumir en los tres principios siguientes:

La cadena de pensamiento permite que el modelo autoevalúe su propio desempeño.
El aprendizaje por refuerzo ayuda al modelo a guiarse a sí mismo
La destilación permite el desarrollo de modelos más pequeños (de 1.500 millones a 70.000 millones de parámetros) a partir de un modelo grande original (671.000 millones de parámetros) para una accesibilidad más amplia.

La estimulación en cadena de pensamientos permite a los modelos de IA dividir problemas complejos en pasos más pequeños, de forma similar a cómo los humanos muestran su trabajo al resolver problemas matemáticos. Este enfoque se combina con el “relleno de borrador”, en el que los modelos pueden realizar cálculos intermedios por separado de su respuesta final. Si el modelo comete un error durante este proceso, puede retroceder a un paso correcto anterior y probar un enfoque diferente.

Además, las técnicas de aprendizaje por refuerzo recompensan a los modelos por producir pasos intermedios precisos, no solo respuestas finales correctas. Estos métodos han mejorado drásticamente el rendimiento de la IA en problemas complejos que requieren un razonamiento detallado.

La destilación es una técnica para crear modelos más pequeños y eficientes que conservan la mayoría de las capacidades de los modelos más grandes. Funciona utilizando un modelo “profesor” grande para entrenar a un modelo “alumno” más pequeño. A través de este proceso, el modelo alumno aprende a replicar las habilidades de resolución de problemas del profesor para tareas específicas, mientras que requiere menos recursos computacionales.

DeepSeek ha combinado la estimulación de cadenas de pensamiento y el modelado de recompensas con la destilación para crear modelos que superan significativamente a los modelos de lenguaje grande (LLM) tradicionales en tareas de razonamiento y al mismo tiempo mantienen una alta eficiencia operativa.

¿Por qué debemos comprender las vulnerabilidades de DeepSeek?

El paradigma detrás de DeepSeek es nuevo. Desde la introducción del modelo o1 de OpenAI, los proveedores de modelos se han centrado en la creación de modelos con razonamiento. Desde o1, los LLM han podido cumplir tareas de manera adaptativa a través de la interacción continua con el usuario. Sin embargo, el equipo detrás de DeepSeek R1 ha demostrado un alto rendimiento sin depender de conjuntos de datos costosos y etiquetados por humanos ni de recursos computacionales masivos.

No cabe duda de que el rendimiento del modelo de DeepSeek ha tenido un impacto enorme en el panorama de la IA. En lugar de centrarnos únicamente en el rendimiento, debemos entender si DeepSeek y su nuevo paradigma de razonamiento tienen alguna desventaja significativa en lo que respecta a la seguridad.

¿Qué tan seguro es DeepSeek en comparación con otros modelos fronterizos?

Metodología

Realizamos pruebas de seguridad y protección contra varios modelos de frontera populares, así como dos modelos de razonamiento: DeepSeek R1 y OpenAI O1-preview.

Para evaluar estos modelos, ejecutamos un algoritmo de jailbreaking automático en 50 mensajes seleccionados de manera uniforme a partir del popular índice de referencia HarmBench. El índice de referencia HarmBench tiene un total de 400 comportamientos en 7 categorías de daños, entre ellos, delitos cibernéticos, desinformación, actividades ilegales y daños generales.

Nuestra métrica clave es la tasa de éxito de ataques (ASR), que mide el porcentaje de comportamientos en los que se encontraron fugas de seguridad. Esta es una métrica estándar que se utiliza en situaciones de fuga de seguridad y que adoptamos para esta evaluación.

Tomamos muestras de los modelos objetivo a temperatura 0: la configuración más conservadora. Esto garantiza reproducibilidad y fidelidad a los ataques generados.

Utilizamos métodos automáticos para la detección de rechazos, así como supervisión humana para verificar los jailbreaks.

Resultados

Supuestamente, DeepSeek R1 se entrenó con una fracción de los presupuestos que otros proveedores de modelos de vanguardia gastan en desarrollar sus modelos. Sin embargo, tiene un costo diferente: seguridad y protección.

Nuestro equipo de investigación logró desbloquear DeepSeek R1 con una tasa de éxito de ataque del 100 %. Esto significa que no hubo un solo mensaje del conjunto HarmBench que no obtuviera una respuesta afirmativa de DeepSeek R1. Esto contrasta con otros modelos de frontera, como o1, que bloquea la mayoría de los ataques adversarios con sus barandillas de modelo.

El gráfico a continuación muestra nuestros resultados generales.

Gráfico que muestra las tasas de éxito de los ataques en los LLM más populares, con DeepSeek-R1 con una tasa de éxito del 100 %, Llama-3.1-405B con una tasa de éxito del 96 %, GPT-4o con una tasa de éxito del 86 %, Gemini-1.5-pro con una tasa de éxito del 64 %, Claude-3.5-Sonnet con una tasa de éxito del 36 % y O1-preview con una tasa de éxito del 26 %

La siguiente tabla ofrece una mejor idea de cómo respondió cada modelo a las indicaciones en varias categorías de daños.

Tabla que muestra el porcentaje de jailbreak por modelo y categoría. Deepseek tiene un porcentaje de jailbreak del 100% en todas las categorías, que incluyen intrusión química, biológica, ciberdelincuencia, acoso, tráfico de drogas, nocivo, ilegal y desinformación.

Nota sobre el jailbreaking algorítmico y el razonamiento: este análisis fue realizado por el equipo de investigación de IA avanzada de Robust Intelligence, ahora parte de Cisco, en colaboración con investigadores de la Universidad de Pensilvania. El costo total de esta evaluación fue de menos de $50 utilizando una metodología de validación completamente algorítmica similar a la que utilizamos en nuestro producto AI Defense. Además, este enfoque algorítmico se aplica en un modelo de razonamiento que supera las capacidades presentadas previamente en nuestra investigación Tree of Attack with Pruning (TAP) del año pasado. En una publicación de seguimiento, analizaremos esta novedosa capacidad de los modelos de razonamiento de jailbreaking algorítmico con mayor detalle. CISCO Blog. P. K. y A. K. Traducido al español

El Portal de las Tecnologías para la Innovación

Evaluación del riesgo de seguridad en DeepSeek y otros modelos de razonamiento de frontera

Resumen ejecutivo

Introducción

¿Qué es DeepSeek R1 y por qué es un modelo importante?

¿Por qué debemos comprender las vulnerabilidades de DeepSeek?

¿Qué tan seguro es DeepSeek en comparación con otros modelos fronterizos?

Metodología

Resultados

Buscá noticias

Seleccioná una categoría

Artículos relacionados

Broadcom lanza la plataforma unificada Wi-Fi 8 para experiencias de IA fluidas en los hogares

Presentamos ChatGPT Salud

Contacto