Eset detalla cómo detectar llamadas con voz deepfake y reducir el fraude corporativo

La inteligencia artificial generativa (GenAI) volvió accesible la producción de audios y videos falsos y, en el entorno corporativo, ese cambio ya se traduce en ataques de suplantación de voz orientados a conseguir acciones sensibles. Entre los objetivos habituales aparecen las transferencias bancarias urgentes, los restablecimientos de contraseñas y la aprobación de autenticación multifactor (MFA), un mecanismo de verificación que agrega un segundo paso además de la contraseña.

Las deepfakes también pueden utilizarse para eludir controles y autenticaciones, o para infiltrar organizaciones mediante un candidato falso y sintético en procesos de selección. No obstante, el mayor impacto se concentra en el fraude financiero y en el secuestro de cuentas de ejecutivos, una modalidad que busca tomar control de credenciales y accesos con valor operativo.

El volumen del fenómeno creció con rapidez. El Gobierno británico afirmó que el año pasado se compartieron hasta 8 millones de clips falsos, frente a los 500 mil difundidos en 2023. Aun con ese registro, la cifra real podría ser mayor y las organizaciones tienden a subestimar la amenaza.

Un experimento de Jake Moore, Global Security Advisor de Eset, mostró que para lanzar un ataque de audio deepfake alcanza con un clip corto de la víctima: GenAI completa la suplantación. La secuencia típica incluye elegir a la persona a imitar —un CEO, un CFO o un proveedor—, obtener una muestra de audio en internet (redes sociales, entrevistas en video o televisión, o convocatorias de beneficios), identificar dentro de la empresa a quien recibirá el pedido —por ejemplo, personal de soporte informático o del equipo financiero, con búsquedas documentales en LinkedIn— y luego llamar o preparar el terreno con un correo previo.

En la instancia de contacto, el atacante puede seguir un discurso preestablecido o aplicar un método de “voz a voz”, en el que su voz se traduce casi en tiempo real a la de la víctima. “Este tipo de ataque es cada vez más barato, sencillo y convincente”, dijo Macio Micucci, investigador de Seguridad Informática de Eset Latinoamérica.

Para detectar la suplantación, la compañía enumera señales como un ritmo antinatural, un tono emocional inusualmente plano, respiración extraña o frases sin respiración, sonido robótico (en herramientas menos avanzadas) y un ruido de fondo ausente o demasiado uniforme. A eso se suman tácticas de ingeniería social, como la presión por urgencia y el uso de jerarquías.

En 2020, un empleado de una empresa de Emiratos Árabes Unidos fue engañado para transferir US$ 35 millones tras una supuesta llamada de su director, vinculada a una operación de fusión y adquisición. Como respuesta, se recomienda reforzar la formación con simulaciones de audio deepfake y ejercicios de red team, además de controles como verificación fuera de banda, doble firma en transferencias importantes o cambios de datos bancarios, y contraseñas o preguntas acordadas previamente. “El nuevo panorama del ciberfraude exige una atención constante”, dijo Micucci, investigador de Seguridad Informática de Eset Latinoamérica.