Los datos creados artificialmente ofrecen beneficios que van desde ahorros de costos hasta la preservación de la privacidad, pero sus limitaciones requieren una planificación y evaluación cuidadosas, dice Kalyan Veeramachaneni.
Los datos creados artificialmente ofrecen beneficios que van desde ahorros de costos hasta la preservación de la privacidad, pero sus limitaciones requieren una planificación y evaluación cuidadosas, dice Kalyan Veeramachaneni.
Los datos sintéticos se generan artificialmente mediante algoritmos para imitar las propiedades estadísticas de los datos reales, sin contener información de fuentes reales. Si bien es difícil determinar cifras concretas, algunas estimaciones sugieren que más del 60 % de los datos utilizados para aplicaciones de IA en 2024 fueron sintéticos, y se prevé que esta cifra aumente en todos los sectores.
Dado que los datos sintéticos no contienen información del mundo real, prometen proteger la privacidad, a la vez que reducen el coste y aceleran el desarrollo de nuevos modelos de IA. Sin embargo, su uso requiere una evaluación, planificación y controles exhaustivos para evitar pérdidas de rendimiento al implementar los modelos de IA.
Para analizar algunas ventajas y desventajas del uso de datos sintéticos, MIT News habló con Kalyan Veeramachaneni, científico investigador principal del Laboratorio de Sistemas de Información y Decisión y cofundador de DataCebo , cuya plataforma de núcleo abierto, Synthetic Data Vault , ayuda a los usuarios a generar y probar datos sintéticos.
P: ¿Cómo se crean los datos sintéticos?
R: Los datos sintéticos se generan algorítmicamente, pero no provienen de una situación real. Su valor reside en su similitud estadística con los datos reales. Si hablamos del lenguaje, por ejemplo, los datos sintéticos se asemejan mucho a las oraciones escritas por un humano. Si bien los investigadores han creado datos sintéticos durante mucho tiempo, lo que ha cambiado en los últimos años es nuestra capacidad para construir modelos generativos a partir de los datos y utilizarlos para crear datos sintéticos realistas. Podemos tomar una pequeña cantidad de datos reales y construir un modelo generativo a partir de ellos, que nos permite crear tantos datos sintéticos como queramos. Además, el modelo crea datos sintéticos de una manera que captura todas las reglas subyacentes y los infinitos patrones que existen en los datos reales.
Existen esencialmente cuatro modalidades de datos diferentes: lenguaje, vídeo o imágenes, audio y datos tabulares. Cada una de ellas utiliza métodos ligeramente distintos para construir los modelos generativos que generan datos sintéticos. Un LLM, por ejemplo, no es más que un modelo generativo del que se extraen datos sintéticos al formular una pregunta.
Muchos datos de lenguaje e imágenes están disponibles públicamente en internet. Sin embargo, los datos tabulares, que son los que se recopilan al interactuar con sistemas físicos y sociales, suelen estar protegidos por firewalls empresariales. Gran parte de ellos son sensibles o privados, como las transacciones de clientes almacenadas por un banco. Para este tipo de datos, plataformas como Synthetic Data Vault ofrecen software que permite crear modelos generativos. Estos modelos crean datos sintéticos que preservan la privacidad del cliente y permiten una mayor difusión.
Una ventaja de este enfoque de modelado generativo para sintetizar datos es que las empresas ahora pueden crear un modelo local personalizado para sus propios datos. La IA generativa automatiza lo que solía ser un proceso manual.
P: ¿Cuáles son algunos de los beneficios de utilizar datos sintéticos y para qué casos de uso y aplicaciones son particularmente adecuados?
R: Una aplicación fundamental que ha crecido enormemente en la última década es el uso de datos sintéticos para probar aplicaciones de software. Muchas aplicaciones de software se basan en una lógica basada en datos, por lo que se necesitan datos para probar ese software y su funcionalidad. Antes, se generaban datos manualmente, pero ahora podemos usar modelos generativos para crear la cantidad de datos que necesitemos.
Los usuarios también pueden crear datos específicos para las pruebas de aplicaciones. Supongamos que trabajo en una empresa de comercio electrónico. Puedo generar datos sintéticos que imitan a clientes reales que viven en Ohio y realizaron transacciones relacionadas con un producto específico en febrero o marzo.
Dado que los datos sintéticos no se extraen de situaciones reales, también preservan la privacidad. Uno de los mayores problemas en las pruebas de software ha sido el acceso a datos reales sensibles para probar software en entornos no productivos, debido a preocupaciones sobre la privacidad. Otra ventaja inmediata reside en las pruebas de rendimiento. Se pueden crear mil millones de transacciones a partir de un modelo generativo y comprobar la velocidad de procesamiento del sistema.
Otra aplicación donde los datos sintéticos son muy prometedores es el entrenamiento de modelos de aprendizaje automático. En ocasiones, necesitamos un modelo de IA que nos ayude a predecir un evento menos frecuente. Un banco podría querer usar un modelo de IA para predecir transacciones fraudulentas, pero podría haber muy pocos ejemplos reales para entrenar un modelo que pueda identificar el fraude con precisión. Los datos sintéticos proporcionan aumento de datos: ejemplos de datos adicionales similares a los datos reales. Esto puede mejorar significativamente la precisión de los modelos de IA.
Además, a veces los usuarios no tienen el tiempo ni los recursos económicos para recopilar todos los datos. Por ejemplo, recopilar datos sobre la intención del cliente requeriría realizar numerosas encuestas. Si se tienen datos limitados e intenta entrenar un modelo, este no funcionará bien. Se puede mejorar añadiendo datos sintéticos para entrenar mejor esos modelos.
P. ¿Cuáles son algunos de los riesgos o posibles inconvenientes del uso de datos sintéticos y hay medidas que los usuarios pueden tomar para prevenir o mitigar esos problemas?
A. Una de las preguntas más frecuentes es: si los datos se crean sintéticamente, ¿por qué confiar en ellos? Determinar si se puede confiar en los datos suele depender de la evaluación del sistema general donde se utilizan.
Hay muchos aspectos de los datos sintéticos que hemos podido evaluar durante mucho tiempo. Por ejemplo, existen métodos para medir la similitud de los datos sintéticos con los datos reales, y podemos medir su calidad y si preservan la privacidad. Pero hay otras consideraciones importantes al utilizar esos datos sintéticos para entrenar un modelo de aprendizaje automático para un nuevo caso de uso. ¿Cómo se puede saber si los datos generarán modelos que aún generen conclusiones válidas?
Están surgiendo nuevas métricas de eficacia, y ahora el énfasis se centra en la eficacia para una tarea específica. Es fundamental analizar a fondo el flujo de trabajo para garantizar que los datos sintéticos que se añaden al sistema permitan extraer conclusiones válidas. Esto debe hacerse con cuidado, aplicación por aplicación.
El sesgo también puede ser un problema. Dado que se crea a partir de una pequeña cantidad de datos reales, el mismo sesgo que existe en los datos reales puede trasladarse a los datos sintéticos. Al igual que con los datos reales, es necesario asegurarse de eliminar el sesgo mediante diferentes técnicas de muestreo, lo que permite crear conjuntos de datos equilibrados. Requiere una planificación cuidadosa, pero se puede calibrar la generación de datos para evitar la proliferación del sesgo.
Para facilitar el proceso de evaluación, nuestro grupo creó la Biblioteca de Métricas de Datos Sintéticos . Nos preocupaba que las personas usaran datos sintéticos en su entorno y que estos arrojaran conclusiones diferentes en el mundo real. Creamos una biblioteca de métricas y evaluación para garantizar el equilibrio de poderes. La comunidad de aprendizaje automático se ha enfrentado a numerosos desafíos para garantizar que los modelos se generalicen a nuevas situaciones. El uso de datos sintéticos añade una nueva dimensión a este problema.
Preveo que los antiguos sistemas de trabajo con datos, ya sea para crear aplicaciones de software, responder preguntas analíticas o entrenar modelos, cambiarán drásticamente a medida que nos volvamos más sofisticados en la construcción de estos modelos generativos. Muchas cosas que antes no podíamos hacer ahora serán posibles.
MIT News. A. z. Traducido al español