El Portal de las Tecnologías para la Innovación

Cómo proteger la IA de los ataques repentinos y de los jailbreaks 

Obtener una herramienta de IA para responder preguntas de servicio al cliente puede ser una excelente manera de ahorrar tiempo. Lo mismo ocurre con el uso de un asistente de IA para resumir correos electrónicos. Pero las potentes capacidades lingüísticas de esas herramientas también las hacen vulnerables a ataques instantáneos o intentos maliciosos de engañar a los modelos de IA para que ignoren las reglas de su sistema y produzcan resultados no deseados.  

 Existen dos tipos de ataques de aviso. Uno es un ataque de aviso directo conocido como jailbreak, como si la herramienta de servicio al cliente generara contenido ofensivo a pedido de alguien, por ejemplo. El segundo es un ataque de aviso indirecto, por ejemplo, si el asistente de correo electrónico sigue un aviso oculto y malicioso para revelar datos confidenciales.  

Microsoft protege contra ambos tipos de ataques instantáneos con herramientas y prácticas de inteligencia artificial que incluyen nuevas medidas de seguridad, herramientas de seguridad avanzadas y una profunda inversión en investigación y experiencia en ciberseguridad.  

Esta publicación es parte de  la serie Building AI Responsibly de Microsoft  , que explora las principales preocupaciones con la implementación de IA y cómo la empresa las está abordando con sus prácticas y herramientas de IA responsables.  

“Los ataques instantáneos son una preocupación de seguridad cada vez mayor que Microsoft se toma muy en serio”, afirma Ken Archer, director de productos de Responsible AI en la empresa. “La IA generativa está cambiando la forma en que las personas viven y trabajan, y estamos trabajando activamente para ayudar a los desarrolladores a crear aplicaciones de IA más seguras”.  

Los jailbreaks se producen cuando alguien introduce directamente mensajes maliciosos en un sistema de IA, como decirle que «olvide» sus reglas o finja ser un personaje rebelde. El término se utilizaba para los teléfonos inteligentes antes de la IA: describía a alguien que intentaba personalizar su teléfono liberándolo de la «cárcel» de restricciones del fabricante. 

Los ataques indirectos se producen cuando alguien oculta instrucciones maliciosas en un correo electrónico, documento, sitio web u otros datos que procesa una herramienta de IA. Un atacante puede enviar un correo electrónico de apariencia inofensiva que oculta una indicación dañina en una fuente blanca, texto codificado o una imagen. Un sitio web de una empresa o de currículums puede insertar texto oculto para manipular las herramientas de selección de IA y así evitar una auditoría de la empresa o colocar un currículum en la parte superior de una pila.  

Las personas son más conscientes de los jailbreaks, pero los ataques indirectos conllevan un mayor riesgo porque pueden permitir el acceso externo no autorizado a información privilegiada. Las organizaciones a menudo necesitan basar los sistemas de IA en documentos y conjuntos de datos para aprovechar el beneficio de la IA generativa. Pero hacerlo puede abrirles caminos para ataques indirectos que conducen a fugas de datos, malware y otras violaciones de seguridad cuando esos documentos y conjuntos de datos no son confiables o están comprometidos. 

“Esto crea una disyuntiva fundamental”, dice Archer.  

Para ayudar a protegerse contra fugas de información y ataques indirectos, Microsoft ha desarrollado un enfoque integral que ayuda a los desarrolladores de IA a detectar, medir y gestionar el riesgo. Incluye Prompt Shields , un modelo perfeccionado para detectar y bloquear mensajes maliciosos en tiempo real, y evaluaciones de seguridad para simular mensajes adversarios y medir la susceptibilidad de una aplicación a ellos. Ambas herramientas están disponibles en Azure AI Foundry .  

Microsoft Defender for Cloud ayuda a prevenir futuros ataques con herramientas para analizar y bloquear a los atacantes, mientras que Microsoft Purview proporciona una plataforma para administrar datos confidenciales utilizados en aplicaciones de IA. La empresa también publica las mejores prácticas para desarrollar una defensa de varias capas que incluye mensajes de sistema robustos o reglas que guían un modelo de IA en materia de seguridad y rendimiento. 

“Concientizamos a los clientes sobre la importancia de un enfoque de defensa en profundidad”, afirma Sarah Bird, directora de productos de Responsible AI en Microsoft. “Incorporamos mitigaciones en el modelo, creamos un sistema de seguridad a su alrededor y diseñamos la experiencia del usuario para que pueda ser parte activa del uso de la IA de manera más segura”.  

La IA generativa está cambiando la forma en que las personas viven y trabajan, y estamos trabajando activamente para ayudar a los desarrolladores a crear aplicaciones de IA más seguras.

Ken Archer, director principal de productos de inteligencia artificial de Microsoft

La estrategia de defensa se basa en la dilatada experiencia de la empresa en materia de ciberseguridad, que abarca desde su equipo de inteligencia artificial Red Team, que ataca sus propios productos, hasta el centro de respuesta de seguridad de Microsoft, que investiga y supervisa los ataques. El centro gestiona programas de recompensas por errores para que investigadores externos informen sobre vulnerabilidades en los productos de Microsoft y, recientemente, ha lanzado una nueva oportunidad para informar sobre vulnerabilidades de alto impacto en los productos de inteligencia artificial y de la nube de la empresa.  

“Nos mantenemos al tanto de las amenazas emergentes invitando a la gente a atacarnos”, afirma Archer. “Aprendemos constantemente de una red de investigadores dedicados a comprender los nuevos ataques y mejorar nuestras medidas de seguridad”.  

Afirma que los ataques rápidos explotan la incapacidad de los grandes modelos de lenguaje (LLM) para distinguir las instrucciones del usuario de los datos de base. Se espera que la arquitectura de los modelos, que procesan las entradas en un único flujo continuo de texto, mejore con las iteraciones más recientes.  

Los investigadores de Microsoft que estudian los ataques indirectos están contribuyendo a esas mejoras. Han descubierto que la “ referencia ”, un grupo de técnicas de ingeniería rápida, puede reducir el riesgo de ataque al ayudar a los LLM a diferenciar las instrucciones válidas del sistema de las adversarias. Y están estudiando la “ deriva de tareas ” (desviaciones en la forma en que los modelos responden a tareas con y sin documentos de base) como una nueva forma de detectar ataques indirectos.  

“Dadas las primeras etapas de las arquitecturas de IA generativa, las empresas con activos de datos sensibles deberían centrarse en la seguridad”, afirma Archer. “Pero también deberían saber que pueden crear aplicaciones de IA generativa con confianza cerrando estos vectores de ataque”.

Obtenga más información sobre  el trabajo de IA responsable de Microsoft .

Ilustración principal de Makeshift Studios/Rocio Galarza. Historia publicada el 3 de diciembre de 2024. Microsoft Blog. V. H. Traducido al español

Artículos relacionados

Scroll al inicio