Una nueva investigación de la EPFL demuestra que incluso los modelos de lenguaje grande (LLM) más recientes, a pesar de haber recibido capacitación en seguridad, siguen siendo vulnerables a simples manipulaciones de entrada que pueden hacer que se comporten de manera no deseada o dañina.
Los LLM actuales tienen capacidades notables que, sin embargo, pueden utilizarse de forma indebida. Por ejemplo, un actor malintencionado puede utilizarlos para producir contenido tóxico, difundir información errónea y respaldar actividades dañinas.
El entrenamiento de alineación de seguridad o de rechazo —donde se guía a los modelos para generar respuestas que los humanos consideran seguras y para rechazar respuestas a preguntas potencialmente dañinas— se utiliza comúnmente para mitigar los riesgos de mal uso.
Sin embargo, una nueva investigación de la EPFL , presentada en el Taller sobre Seguridad de IA de Próxima Generación de la Conferencia Internacional sobre Aprendizaje Automático de 2024ha demostrado que incluso los LLM más recientes alineados con la seguridad no son robustos a simples ataques de jailbreak adaptativos –esencialmente manipulaciones a través del aviso para influenciar el comportamiento de un modelo y generar resultados que se desvían de su propósito previsto.
Cómo eludir las salvaguardas del LLM
Como se describe en su artículo, ‘ Jailbreaking leading safety-aligned LLMs with simple adaptive attack ‘, los investigadores Maksym Andriushchenko, Francesco Croce y Nicolas Flammarion del Laboratorio de Teoría del Aprendizaje Automático (TML) de la Facultad de Ciencias de la Computación y la Comunicación lograron una tasa de ataques exitosa del 100 % por primera vez en muchos de los principales LLM. Esto incluye los LLM más recientes de OpenAI y Anthropic, como GPT-4o y Claude 3.5 Sonnet.
“Nuestro trabajo demuestra que es posible aprovechar la información disponible sobre cada modelo para construir ataques adaptativos simples, que definimos como ataques diseñados específicamente para atacar una defensa determinada, que esperamos sirvan como una valiosa fuente de información sobre la solidez de los LLM de frontera”, explicó Nicolas Flammarion, director del TML y coautor del artículo.
La herramienta clave de los investigadores fue una plantilla de solicitud diseñada manualmente que se utilizó para todas las solicitudes no seguras para un modelo determinado. Utilizando un conjunto de datos de 50 solicitudes dañinas, obtuvieron una puntuación perfecta de jailbreaking (100 %) en Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, Claude-3/3.5 y el R2D2 entrenado de forma adversa.
Utilizando la adaptabilidad para evaluar la robustez
El tema común detrás de estos ataques es que la adaptabilidad de los ataques es crucial: diferentes modelos son vulnerables a diferentes plantillas de solicitud, por ejemplo, algunos modelos tienen vulnerabilidades únicas basadas en su interfaz de programación de aplicaciones y, en algunas configuraciones, es crucial restringir el espacio de búsqueda de tokens en función del conocimiento previo.
“Nuestro trabajo demuestra que la aplicación directa de los ataques existentes no es suficiente para evaluar con precisión la solidez adversarial de los LLM y, en general, conduce a una sobrestimación significativa de la solidez. En nuestro estudio de caso, ningún enfoque funcionó lo suficientemente bien, por lo que es crucial probar tanto las técnicas estáticas como las adaptativas”, afirmó Maksym Andriushchenko , estudiante de doctorado de la EPFL y autor principal del artículo.
Esta investigación se basa en la tesis doctoral de Andriushchenko, Understanding generalization and robustness in modern deep learning (Entender la generalización y la robustez en el aprendizaje profundo moderno) , que, entre otras contribuciones, investigó métodos para evaluar la robustez adversaria. La tesis exploró cómo evaluar y comparar la resiliencia de las redes neuronales a pequeñas perturbaciones de entrada y analizó cómo estos cambios afectan los resultados del modelo.
Fomentando la seguridad en el LLM
Este trabajo se ha utilizado para informar sobre el desarrollo de Gemini 1.5 (como se destaca en su informe técnico ), uno de los últimos modelos lanzados por Google DeepMind diseñado para aplicaciones de IA multimodal. La tesis de Andriushchenko también ganó recientemente el Premio Memorial Patrick Denantes , creado en 2010 para honrar la memoria de Patrick Denantes, un estudiante de doctorado en Sistemas de Comunicación en la EPFL que murió trágicamente en un accidente de escalada en 2009.
«Estoy entusiasmado de que mi trabajo de tesis haya dado lugar a la investigación posterior sobre los LLM, que es muy relevante y de gran impacto en la práctica, y es maravilloso que Google DeepMind haya utilizado los resultados de nuestra investigación para evaluar sus propios modelos», afirmó Andriushchenko. «También me sentí honrado de ganar el premio Patrick Denantes, ya que hubo muchos otros estudiantes de doctorado muy destacados que se graduaron el año pasado.
Andriushchenko cree que la investigación sobre la seguridad de los LLM es importante y prometedora. A medida que la sociedad avanza hacia el uso de los LLM como agentes autónomos (por ejemplo, como asistentes personales de inteligencia artificial), es fundamental garantizar su seguridad y su adecuación a los valores sociales.
“No pasará mucho tiempo antes de que los agentes de IA puedan realizar diversas tareas por nosotros, como planificar y reservar nuestras vacaciones, tareas que requerirían acceso a nuestros calendarios, correos electrónicos y cuentas bancarias. Aquí es donde surgen muchas preguntas sobre seguridad y alineación. Si bien puede ser apropiado que un agente de IA elimine archivos individuales cuando se lo solicitemos, eliminar un sistema de archivos completo sería catastrófico para el usuario. Esto resalta las sutiles distinciones que debemos hacer entre los comportamientos aceptables e inaceptables de la IA”, explicó.
En última instancia, si queremos implementar estos modelos como agentes autónomos, es importante asegurarnos primero de que estén adecuadamente entrenados para comportarse de manera responsable y minimizar el riesgo de causar daños graves.
“Nuestros hallazgos ponen de relieve una brecha crítica en los enfoques actuales sobre la seguridad de los LLM. Necesitamos encontrar formas de hacer que estos modelos sean más robustos, para que puedan integrarse en nuestra vida diaria con confianza, garantizando que sus potentes capacidades se utilicen de forma segura y responsable”, concluyó Flammarion.
El premio Patrick Denantes Memorial Prize es otorgado anualmente por un jurado al autor de una tesis doctoral destacada de la Facultad de Ciencias de la Computación y la Comunicación . El patrocinio financiero lo proporciona la familia Denantes y el Centro de Investigación de Nokia. EPFL. T. P. Traducido al español