Los “deepfakes” de voz, o la manipulación de audio mediante inteligencia artificial para clonar voces, están ganando notoriedad por su capacidad para engañar incluso a aquellos que están preparados para detectarlos.
A continuación, te presento una columna detallada sobre este fenómeno.
Estafas y Engaños
En 2019, un director de una empresa británica fue víctima de una estafa de 220.000 euros a través de un mensaje de voz falso. En Hong Kong, un gerente de banco transfirió 400.000 dólares antes de darse cuenta de que algo estaba mal. Estos casos ilustran cómo la tecnología deepfake se está utilizando para clonar voces y llevar a cabo fraudes sofisticados.
La Dificultad de Detectar deepfakes de voz
Un estudio con 529 personas publicado en Plos One reveló que los humanos tienen dificultades para identificar si un mensaje de voz es falso o verdadero. Los participantes fallaron una de cada cuatro veces al intentar detectar deepfakes de voz, y los esfuerzos para entrenarlos tuvieron efectos mínimos. Incluso después de recibir entrenamiento con ejemplos de voz sintetizada, la mejora fue solo del 3%.
Comparación entre idiomas
Los investigadores del University College London llevaron a cabo pruebas en inglés y mandarín para entender si el desafío variaba según el idioma. Los hallazgos sugieren que las capacidades son equivalentes, y los participantes se basaron en atributos similares, como la naturalidad y si sonaba robótico, para calificar la autenticidad de los mensajes.
Subjetividad del audio
A diferencia de los deepfakes visuales, donde se pueden observar objetos y escenarios, la naturaleza auditiva del discurso hace que las percepciones sean más subjetivas. La investigadora postdoctoral Kimberly Mai explica que esto se debe a la complejidad de descomponer los sonidos y detectar las sutilezas de la acústica, algo que los humanos no pueden hacer.
Comparación con detectores automáticos
Los investigadores compararon la capacidad humana con dos detectores automáticos. Uno alcanzó el 75% de asertividad, similar a las respuestas humanas, mientras que el otro identificó la naturaleza de los audios con 100% de precisión. Los detectores automáticos son capaces de identificar peculiaridades en niveles específicos de frecuencia, pero también tienen limitaciones, como su inaccesibilidad para uso cotidiano y su rendimiento en entornos ruidosos.
Estrategias para evitar estafas
En el plano individual, las personas son poco fiables para detectar deepfakes de voz. Sin embargo, agrupar las opiniones de más individuos y tomar una decisión basada en una votación mayoritaria mejora la detección. Kimberly Mai recomienda discutir con otras personas y verificar la fuente si se recibe un audio sospechoso.
Los deepfakes de voz representan un desafío creciente en la era de la inteligencia artificial. La capacidad humana para detectar estos engaños es limitada, incluso con entrenamiento.
La tecnología puede ofrecer soluciones, pero también tiene sus propias limitaciones. La implementación de regulaciones y políticas, junto con la mejora de los detectores automatizados, puede ser clave para mitigar los riesgos derivados de los deepfakes de voz.
La conciencia y la colaboración también pueden desempeñar un papel vital en la protección contra estafas y engaños en el mundo digital.