El Portal de las Tecnologías para la Innovación

Nuevo método protege de manera eficiente los datos confidenciales de entrenamiento de IA

El enfoque mantiene una precisión de modelado de IA al tiempo que garantiza que los atacantes puedan extraer información secreta.

La privacidad de los datos tiene un costo. Existen técnicas de seguridad que protegen los datos confidenciales del usuario, como las direcciones de los clientes, de los atacantes que pueden intentar extraerlos de los modelos de IA —, pero a menudo hacen que esos modelos sean menos precisos.

Los investigadores del MIT desarrollaron recientemente un marco basado en un nueva métrica de privacidad llamado PAC Privacy, que podría mantener el rendimiento de un modelo de IA al tiempo que garantiza que los datos confidenciales, como imágenes médicas o registros financieros, permanezcan a salvo de los atacantes. Ahora, han llevado este trabajo un paso más allá al hacer que su técnica sea más eficiente computacionalmente, mejorando la compensación entre precisión y privacidad, y creando una plantilla formal que se puede usar para privatizar prácticamente cualquier algoritmo sin necesidad de acceso a ese funcionamiento interno de los algoritmos.

El equipo utilizó su nueva versión de PAC Privacy para privatizar varios algoritmos clásicos para análisis de datos y tareas de aprendizaje automático.

También demostraron que más algoritmos “stable” son más fáciles de privatizar con su método. Las predicciones de un algoritmo estable siguen siendo consistentes incluso cuando sus datos de entrenamiento se modifican ligeramente. Una mayor estabilidad ayuda a un algoritmo a hacer predicciones más precisas sobre datos nunca antes vistos.

Los investigadores dicen que la mayor eficiencia del nuevo marco de privacidad PAC, y la plantilla de cuatro pasos que se puede seguir para implementarlo, facilitaría la implementación de la técnica en situaciones del mundo real.

“Tendemos a considerar que la robustez y la privacidad no están relacionadas, o tal vez incluso en conflicto con, la construcción de un algoritmo de alto rendimiento. Primero, hacemos un algoritmo de trabajo, luego lo hacemos robusto y luego privado. Weweve demostró que no siempre es el encuadre correcto. Si haces que tu algoritmo funcione mejor en una variedad de configuraciones, esencialmente puedes obtener privacidad de forma gratuita,” dice Mayuri Sridhar, un estudiante graduado del MIT y autor principal de un documento sobre este marco de privacidad.

A ella se une el artículo de Hanshen Xiao PhD ’24, quien comenzará como profesora asistente en la Universidad de Purdue en el otoño; y el autor principal Srini Devadas, el Profesor Edwin Sibley Webster de Ingeniería Eléctrica en el MIT. La investigación se presentará en el Simposio IEEE sobre Seguridad y Privacidad.

Estimación de ruido

Para proteger los datos confidenciales que se utilizaron para entrenar un modelo de IA, los ingenieros a menudo agregan ruido, o aleatoriedad genérica, al modelo para que sea más difícil para un adversario adivinar los datos de entrenamiento originales. Este ruido reduce la precisión de una modelización, por lo que cuanto menos ruido se pueda agregar, mejor.

PAC Privacy estima automáticamente la menor cantidad de ruido que uno necesita agregar a un algoritmo para lograr un nivel deseado de privacidad.

El algoritmo original PAC Privacy ejecuta un modelo AI de usuario muchas veces en diferentes muestras de un conjunto de datos. Mide la varianza y las correlaciones entre estos muchos resultados y utiliza esta información para estimar cuánto ruido se debe agregar para proteger los datos.

Esta nueva variante de PAC Privacy funciona de la misma manera, pero no necesita representar toda la matriz de correlaciones de datos en las salidas; solo necesita las variaciones de salida.

“Debido a que lo que estás estimando es mucho, mucho más pequeño que toda la matriz de covarianza, puedes hacerlo mucho, mucho más rápido, explica ” Sridhar. Esto significa que uno puede escalar hasta conjuntos de datos mucho más grandes.

Agregar ruido puede dañar la utilidad de los resultados, y es importante minimizar la pérdida de utilidad. Debido al costo computacional, el algoritmo original de privacidad PAC se limitó a agregar ruido isotrópico, que se agrega uniformemente en todas las direcciones. Debido a que la nueva variante estima el ruido anisotrópico, que se adapta a las características específicas de los datos de entrenamiento, un usuario podría agregar menos ruido general para lograr el mismo nivel de privacidad, aumentando la precisión del algoritmo privatizado.

Privacidad y estabilidad

Mientras estudiaba PAC Privacy, Sridhar planteó la hipótesis de que los algoritmos más estables serían más fáciles de privatizar con esta técnica. Utilizó la variante más eficiente de PAC Privacy para probar esta teoría en varios algoritmos clásicos.

Los algoritmos que son más estables tienen menos varianza en sus resultados cuando sus datos de entrenamiento cambian ligeramente. PAC Privacy divide un conjunto de datos en fragmentos, ejecuta el algoritmo en cada fragmento de datos y mide la varianza entre las salidas. Cuanto mayor sea la varianza, más ruido se debe agregar para privatizar el algoritmo.

Emplear técnicas de estabilidad para disminuir la varianza en las salidas de un algoritmo también reduciría la cantidad de ruido que se necesita agregar para privatizarlo, explica.

“En los mejores casos, podemos obtener estos escenarios de ganar-ganar,”, dice ella.

El equipo demostró que estas garantías de privacidad se mantuvieron fuertes a pesar del algoritmo que probaron, y que la nueva variante de PAC Privacy requería un orden de magnitud menos pruebas para estimar el ruido. También probaron el método en simulaciones de ataque, lo que demuestra que sus garantías de privacidad podrían soportar ataques de última generación.

“Queremos explorar cómo los algoritmos podrían ser co-diseñados con PAC Privacy, por lo que el algoritmo es más estable, seguro y robusto desde el principio, dice” Devadas. Los investigadores también quieren probar su método con algoritmos más complejos y explorar más a fondo la compensación privacidad-utilidad.

“La pregunta ahora es: Cuándo ocurren estas situaciones de ganar-ganar, y ¿cómo podemos hacer que sucedan con más frecuencia?” Sridhar dice.

“Creo que la ventaja clave que PAC Privacy tiene en esta configuración sobre otras definiciones de privacidad es que es una caja negra — no necesita analizar manualmente cada consulta individual para privatizar los resultados. Se puede hacer de forma completamente automática. Estamos construyendo activamente una base de datos habilitada para PAC al extender los motores SQL existentes para admitir análisis de datos privados prácticos, automatizados y eficientes, dice Xiangyao Yu, profesor asistente en el departamento de ciencias de la computación de la Universidad de Wisconsin en Madison, que no participó en este estudio.

Esta investigación es apoyada, en parte, por Cisco Systems, Capital One, Estados Unidos. Departamento de Defensa y una beca MathWorks. MIT News. Z. A. Traducido al español

Artículos relacionados

Scroll al inicio