La IA ya nos engaña también con las voces: el ser humano no es capaz de detectar con fiabilidad los 'deepfakes' de audio
Según un estudio en el que participaron más de 500 personas, a los participantes les costaba identificar correctamente las voces falsas de los verdaderas, pese a estar entrenados para ello
Los investigadores sugieren mejorar los detectores automáticos para lidiar con la situación, que irá a peor en un futuro
Los ciberdelincuentes llegan a Threads
![La inteligencia artificial ya ha generado polémicas en la industria de la música](https://s2.abcstatics.com/abc/www/multimedia/tecnologia/2023/08/02/ia-audio-Ru4ZCF4EdTRQ1f10LzNypcK-1200x840@abc.jpg)
Hace unos meses, en mitad de una sesión, el DJ David Guetta hizo una colaboración inesperada para el público: comenzó a sonar junto a su melodía la voz de Eminem. O como dijo el artista francés, «Em-AI-nem». Dio igual si el rapero estaba allí en carne y hueso o no, lo importante es que su voz cantó con su estilo característico y la gente bailó con fuerzas redobladas por el chute de adrenalina. La jugada salió perfecta. Solo que era una trampa, no era Eminem, sino un 'deepfake' generado a través de una inteligencia artificial (IA).
Los 'deepfake' de vídeo o imagen son desde hace tiempo un problema para los medios, autoridades y famosos, por su enorme potencial para difundir noticias falsas. Entre estas, todos recordamos las imágenes virales en marzo donde supuestamente detenían a Donald Trump, las fotos del Papa Francisco con un abrigo acolchado y unas zapatillas a la moda o los vídeos en los que el presidente Zelenski animaba a las tropas ucranianas a rendirse. Sin embargo, hay otra clase de 'deepfakes' que están pasando desapercibidos, pese a contar con la misma capacidad para destruir reputaciones, provocar ciberataques o vulnerar los derechos de autor: los 'deepfakes' de audio.
Estas falsificaciones se generan a través de muestras de audio filtradas por modelos de aprendizaje automáticos, y pueden imitar el habla de una persona real o incluso generar voces únicas. Las herramientas para crear imitaciones de voz han mejorado a un ritmo vertiginoso, al igual que los generadores de texto como ChatGPT, lo que suscita preocupación por el uso delictivo que se puede dar con esta tecnología. Por ejemplo, ya se ha utilizado para engañar a banqueros y hacer que autoricen transferencias de dinero fraudulentas. En 2020, un ciberdelincuente estafó 35 millones de dólares al director de un banco de Emiratos Árabes Unidos, haciéndose pasar por un cliente durante una llamada telefónica usando un 'deepfake'.
«Antes los engaños se hacían por correo, pero era mucho más sencillo descubrir la trampa y ahora esta técnica está en desuso. Para los ciberdelincuentes las IA de audio son un regalo caído del cielo», expresa David Sancho, jefe de análisis de amenazas de la firma de ciberseguridad Trend Micro. Con el fin de ver hasta qué punto la persona de a pie puede caer en estos trucos, el University College de Londres (Reino Unido) ha realizado un estudio con más de 500 personas donde los sujetos debían diferenciar falsificaciones de voz y de audios reales en inglés y mandarín. La investigación, liderada por la experta en 'machine learning' Kimberly Mai, se ha publicado hoy 2 de agosto en la revista de acceso público PLOS ONE.
Tras la prueba, el estudio concluyó que los participantes «sólo pudieron detectar imitaciones profundas del habla el 73% de las veces». Además, advirtieron de que a algunos participantes se les proporcionaron ejemplos de imitaciones de voz para entrenar su capacidad de detección, pero esto no influyó en que aumentara el grado de acierto. En el estudio también se puntualizó que, dado que los participantes eran conscientes que algunos audios eran falsos y que los investigadores no usaron la tecnología más avanzada en IA generativa, es probable que los resultados difieran en situaciones reales, siendo peor el grado de acierto que el representado por los sujetos en el estudio. Expertos en ciberseguridad consultados por ABC concuerdan con los investigadores: cada día va a ser más complejo discernir la realidad de la 'ficción'.
IA contra IA: el juego del gato y el ratón
A la vista de los resultados, los investigadores concluyeron que no es realista entrenar a personas para que detecten falsificaciones de voz, y que los esfuerzos deben centrarse en mejorar los detectores automáticos. «Es la opción más acertada, porque llegará un punto en que estén los audios tan pulidos que no seremos capaces con nuestro oído de averiguar si es real. Es un tema biológico», apunta Josep Albors, experto en seguridad informática de la ESET. «Desde el punto de vista de la ciberseguridad sabemos que estos sistemas funcionan, porque llevamos usándolos décadas para 'malware' o ataques de 'phising», añade.
Sin embargo, otros expertos como Sancho se mantienen escépticos, porque dicen que oponer IA contra IA es como «el juego del gato y el ratón». «Va a ganar la que vaya por delante, la que sea más refinada o avanzada», explica. Para evitar esto, Albors apunta que se debe invertir más recursos y realizar investigaciones entorno a mejorar las IA de detección, y no dejarlo como «algo secundario», porque esta problemática es «algo que se nos viene encima».
Ataques a figuras públicas
Los expertos aseguran que, pese a todo, el peligro en la actualidad se encuentra en los ataques a figuras públicas y no en el usuario de a pie. «Tienen muchos registro de voz, por entrevistas, ruedas de prensa, conferencias o películas, por lo que los ataques van dirigidos a ellos», explica Albors. Si bien, comentan que al igual que con los textos, las personas deben ser precavidas y ser conscientes que estas falsificaciones auditivas existen y están al alcance de todos.
Esta funcionalidad es sólo para suscriptores
Suscribete
Esta funcionalidad es sólo para suscriptores
Suscribete