Si el mes pasado supimos que en Norteamérica estaban aplicando ya la inteligencia artificial para estafar a personas mayores clonando las voces de sus nietos con el objetivo de pedirles dinero (aquí todavía seguimos con los mensajes de texto), la actualidad nos demuestra que los cibercriminales son capaces de estar en vanguardia a la hora de aplicar cualquier avance tecnológico.
Lo último en este campo es una noticia que nos llega desde Arizona: una madre, Jennifer DeStafano, cuya hija Brie estaba de excursión para practicar esquí, recibió una llamada desde un número desconocido y, al descolgar, pudo escuchar a su hija llorando: «¡Mamá!».
Cuando Jennifer le preguntó a su hija qué había ocurrido, ella, sin parar de llorar, dijo «Mamá, metí la pata». En ese momento, la cosa se puso aún peor: pudo oír la voz de un hombre que le decía a Brie que se acostara y cogía el teléfono, mientras la chica seguía llorando de fondo y pidiendo ayuda:
«Escúchame, tengo a tu hija. Si llamas a la policía, o a quien sea, la voy a llenar de drogas, voy a seguir mi camino, y la dejaré tirada en México».
Ahí fue donde el secuestrador empezó a hablar del dinero del rescate. Y antes de que algún lector se angustie, vamos a aclararlo: mientras esta llamada tenía lugar, la verdadera Brie seguía disfrutando tranquilamente de su jornada de esquí.
El ‘timo del hijo’, la estafa que ha vuelto a WhatsApp: lo cuenta una hija a la que suplantaron para robar 2500 € a su padre
Tres segundos bastan para ‘robarte’ la voz
La teoría de la policía es que se usó tecnología de clonación de voz para suplantar a Brie. Su madre insiste en que «era completamente su voz, su inflexión, esa era la forma en que ella habría llorado».
El New York Post cita a un profesor de la Univ. Estatal de Arizona, Subbarao Kambhampati, que explica que
«Al principio, [esta tecnología] requeriría una mayor cantidad de muestras, pero hora hay formas de hacer esto con solo tres segundos de tu voz. Tres segundos. Y con esos tres segundos, pueden simular cómo suena exactamente».
Ese es el caso, por ejemplo, de VALL-E de Microsoft, capaz de imitar voces y —lo más importante— emociones en tan breve cantidad de tiempo. Y es que lo que ha impresionado a muchos de los usuarios que han leído la noticia en los EE. UU. es el hecho de que hayan sido capaces de sintetizar de forma creíble también el llanto, algo que aún no ofrecen las mejores soluciones comerciales lanzadas en los últimos meses, como ElevenLabs.
Otro aspecto sorprendente del caso es que Brie no tiene «ninguna cuenta pública que ofrezca muestras de su voz», que es el tipo de usuario contra el que suelen dirigirse esta clase de estafas, y apenas hay algunas muestras en el Facebook de su progenitora, si bien sí ha participado en varias «entrevistas públicas por asuntos de deporte escolar». Más que suficiente.
No te creas nada de lo que oigas, llegan los «deep fakes» de audio
Por fortuna, todo terminó bien: Jennifer ignoró las condiciones del ‘secuestrador’, llamó a la policía, y ellos pudieron verificar que su hija se encontraba bien antes de que llegara a concertar la entrega de ningún rescate.
Los expertos recomiendan en estos casos, al igual que en el menos dramático ‘timo del hijo’ de WhatsApp, que el receptor de la llamada haga preguntas que descarten cualquier suplantación, así como que trate de ponerse en contacto con su familiar utilizando su teléfono habitual, sin dar por supuesto que no va a contestar.
La inteligencia artificial ha llegado para quedarse, y ya no nos vamos a poder fiar sin más de lo que veamos ni oigamos.
Imagen | Neo_Artemis en Pixabay, Sam Williams en Pixabay
En Genbeta | El negociador de secuestros de archivos es el nuevo perfil profesional en auge ante la proliferación de ataques con ransomware
–
La noticia
Oír la voz de un familiar cuando te llaman pidiendo rescate por él… y que esté sano y salvo: la IA lleva las estafas a otro nivel
fue publicada originalmente en
Genbeta
por
Marcos Merino
.