Proteger la privacidad con datos sintéticos

Según una investigación de Gartner, la disponibilidad de datos es una barrera importante para implementar la IA generativa.

Un problema importante en el desarrollo de la IA es el esfuerzo que implica obtener datos reales y etiquetarlos. Los datos sintéticos pueden ayudar a resolver este problema. Debido a que el riesgo de privacidad es mucho menor que el de los datos reales, los datos sintéticos abren una gama de oportunidades para entrenar modelos de aprendizaje automático (ML) y analizar datos, dice Alys Woodward, directora analista senior de Gartner.

Sra. Woodward, ¿cómo pueden los datos sintéticos superar los desafíos de protección de datos, cumplimiento y anonimización de datos?

Alys Woodward: Los datos sintéticos pueden salvar los silos de información al actuar como sustitutos de los datos reales y no revelar información confidencial, como detalles personales y propiedad intelectual. Debido a que los conjuntos de datos sintéticos tienen propiedades estadísticas muy similares a los datos originales, pueden proporcionar datos de prueba y entrenamiento precisos que son críticos para el desarrollo de modelos.
El entrenamiento de modelos CV a menudo requiere un conjunto grande y diverso de datos etiquetados para crear modelos de alta precisión. Obtener y utilizar datos reales para este fin puede resultar un desafío, especialmente cuando se trata de datos personales.
Dos casos de uso comunes que requieren datos PII son la verificación de identidad y los sistemas automáticos de asistencia al conductor (ADAS), que monitorean los movimientos y acciones en el área del conductor. En estas situaciones, los datos sintéticos pueden resultar útiles para generar una variedad de expresiones faciales, colores y texturas de la piel, así como objetos adicionales como sombreros, máscaras y gafas de sol. ADAS también requiere que la IA esté entrenada para condiciones de poca luz, como conducir en la oscuridad.

¿Cómo pueden los datos sintéticos reducir los desafíos asociados con la anonimización de los datos?

Alys Woodward: Anonimizar y desidentificar registros manualmente (eliminar información que vincula un registro con una persona específica) a menudo requiere mucho tiempo, trabajo y es propenso a errores. En última instancia, esto puede retrasar los proyectos y aumentar el tiempo de iteración para desarrollar algoritmos y modelos de aprendizaje automático (ML). Los datos sintéticos pueden superar muchos de estos obstáculos al proporcionar un acceso más rápido, más barato y más fácil a datos similares a la fuente original, adecuados para su uso y que protegen la privacidad.

Cuando los datos anonimizados manualmente se combinan con otras fuentes de datos disponibles públicamente, también existe el riesgo de revelar inadvertidamente información que conduzca a la reidentificación de los datos y, por lo tanto, viole la protección de los datos. Los controladores pueden utilizar técnicas como la privacidad diferencial para garantizar que los datos sintéticos generados a partir de datos reales tengan un riesgo muy bajo de desanonimización.

A pesar de los claros beneficios del uso de datos sintéticos, ¿existen algunos desafíos que obstaculizan su adopción generalizada?

Alys Woodward: Al crear un conjunto de datos tabulares sintéticos, se debe lograr un equilibrio entre privacidad y utilidad para garantizar que los datos sigan siendo útiles y reflejen con precisión el conjunto de datos original. Si la utilidad es demasiado alta, la privacidad puede verse comprometida, especialmente para conjuntos de datos únicos o distintivos, ya que el conjunto de datos sintéticos podría compararse con otras fuentes de datos. Por el contrario, los métodos para mejorar la privacidad, por ejemplo separando ciertos atributos o introduciendo “ruido” a través de la privacidad diferencial, pueden reducir la utilidad del conjunto de datos.

La calidad de los datos suele ser inadecuada. ¿Cuál es la calidad de los datos sintéticos?

Alys Woodward: Durante las últimas décadas de gestión de datos, la mala calidad de los datos transaccionales ha sido un desafío constante. Por ejemplo, puede suceder que los agentes del call center no completen completamente los detalles de la dirección o la información del cliente. Estos datos faltantes pueden impedir el análisis. Para abordar esto, las organizaciones de TI deben educar a los usuarios empresariales sobre la importancia de una buena calidad de los datos tanto para las aplicaciones como para el análisis. “Basura que entra, basura que sale” era el principio generalmente aceptado. Sin embargo, esto afecta la actitud de las personas hacia los datos sintéticos, ya que creen que deben ser inferiores porque no son datos reales, lo que retrasa su adopción. En realidad, los datos sintéticos pueden ser mejores que los datos reales, no en términos de representar el mundo actual, sino en términos de entrenar modelos de IA para que funcionen con el mundo ideal o futuro.NetMedia, Alemania. Traducido al español

Comparte la nota:

Artículos relacionados

Scroll al inicio