El Portal de las Tecnologías para la Innovación

Investigadores de Berkeley Descubren Que Las Personas Están Mal Equipadas Para Detectar Clones de Voz con Energía de IA, Desarrollan un Nuevo Conjunto de Datos de Deepfake

¿Podrías reconocer una voz generada por IA de una real? ¿Qué tal si dos voces son iguales?

Resulta que las probabilidades no están a tu favor.

Nueva investigación publicada en Informes Científicos de la Naturalezapor la Escuela de Información de UC Berkeley, la estudiante Sarah Barrington, la Profesora Hany Farid y la Profesora de Ciencias de la Visión y Optometría Emily Cooper descubrieron que las personas no pueden identificar consistentemente grabaciones de voces generadas por IA. 

En su estudio, el grupo se centró en dos factores: identidad y naturalidad. En el estudio de identidad, se pidió a los participantes que escucharan dos voces consecutivas e identificaran si eran del mismo tema. El estudio de naturalidad involucró a los participantes escuchando una voz a la vez y clasificándola como real o generada por IA.

“Solo el 60% de las veces los humanos pueden decir que algo es falso. Teniendo en cuenta que adivinar al azar sería del 50%, no somos mucho mejores que adivinar. Cuando pones dos voces una al lado de la otra, solo el 20% de las veces las personas pueden decir que no son la misma identidad, dijo Barrington. “Eso es como sabemos que estamos casi a través del valle extraño. Estas cosas son perceptualmente lo suficientemente realistas como para engañar a un humano.”

Para abordar esto, Barrington y Farid están trabajando en un proyecto para ayudar a los humanos a mantenerse a la vanguardia de las falsificaciones profundas. Trabajando en equipo con el estudiante de Stanford Matyas Bohacek, han creado Profundo, un conjunto de datos a gran escala de imágenes reales y deepfake con la esperanza de desarrollar nuevas y refinar aún más las técnicas actuales de detección de deepfake. 

“No somos mucho mejores que solo adivinar. Así es como sabemos que estamos a través del valle extraño. Estas cosas son perceptualmente lo suficientemente realistas como para engañar a un humano. ”— Sarah Barrington

“El problema con los conjuntos de datos actuales de deepfake es que no se recopilan de forma consensuada, no utilizan las herramientas tecnológicamente más avanzadas y no hay diversidad de tipos de deepfakes que crean o ambientales,” dijo Barrington. 

Ahora en su segunda iteración, DeepSpeak incluye imágenes de 500 participantes de entre 18 y 75 años. Estos participantes realizaron acciones visuales simples frente a una cámara y se grabaron leyendo oraciones, que luego se usaron para crear una variedad de falsificaciones profundas: audio, intercambio de caras, avatar y sincronización de labios. 

Actualmente, el grupo de investigación DeepSpeak está explorando ideas como diferentes idiomas y más motores de generación de deepfake para su tercera iteración, que se lanzará el próximo año.

En cuanto al futuro de la detección de falsificaciones profundas, Barrington está pidiendo una reforma con la esperanza de combatir las herramientas de inteligencia artificial cada vez más avanzadas. 

“Es realmente importante presionar las plataformas donde puedes crear estas cosas para asegurarte de que estén haciendo cumplir las barandillas. También es una oportunidad de política realmente grande para asegurarse de que no solo haya credenciales de contenido y marcas de agua, sino que también haya suficiente diligencia debida del cliente y colaboración con las autoridades, dijo Barrington.

“En el sistema legal, por ejemplo Hany, Emily y Rebecca Wexler [de Berkeley Law] están argumentando que la forma en que pensamos actualmente sobre las voces en el sistema judicial está desactualizada debido a la clonación de voz. En este momento, podemos satisfacer el estándar de autenticación para la admisibilidad haciendo que alguien familiarizado con la voz de una persona venga al estrado y diga, ’que suena como la misma persona para mí,’ y obviamente este estudio demuestra que es completamente insuficiente. UC Berkeley News. Traducido al español

Artículos relacionados

Huawei

Huawei presenta su visión de sinergia submarino-terrestre y orquestación óptica-inteligente

Huawei presentó su visión de sinergia submarino-terrestre y orquestación óptica-inteligente. En su debut en Submarine Networks World 2025, el principal evento de comunicaciones submarinas en Singapur, la compañía presentó una solución innovadora y productos estrella diseñados para facilitar la integración y la sinergia eficiente entre las redes submarinas y terrestres.

Continuar leyendo...
Nintendo

¡Despega con Mario en dos aventuras que desafían la gravedad!

¿Listo para explorar los confines del espacio? Super Mario Galaxy™ y Super Mario Galaxy 2 son dos aventuras icónicas de Mario, conocidas por sus plataformas desenfrenadas, sorpresas cósmicas y una banda sonora orquestada y envolvente. (Ah, y un dato curioso: ¡Super Mario Galaxy también fue la primera aparición de Rosalina y los Lumas!)

Continuar leyendo...
Scroll al inicio