Ciberseguridad

Consejos prácticos para reconocer una voz generada por IA y protegerte de estafas

Cerlesky Pérez

Foto: BigStock

Sábado 8 de noviembre de 2025

6 minutos

Los ciberdelincuentes ya aprovechan esta tecnología para suplantar identidades

Consejos prácticos para reconocer una voz generada por IA y protegerte de estafas
Cerlesky Pérez

Foto: BigStock

Sábado 8 de noviembre de 2025

6 minutos

La inteligencia artificial ya es capaz de crear voces y vídeos casi indistinguibles de los reales, un avance que ha abierto nuevas vías de fraude. Algunos ciberdelincuentes aprovechan estas tecnologías para suplantar a empresas, bancos o instituciones con el objetivo de obtener dinero o datos personales. A medida que los modelos de voz generativa se perfeccionan, los errores que antes delataban un deepfake –contenidos manipulados mediante IA– se vuelven mucho más difíciles de detectar. 

Así lo explica Josep Curto, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC), quien ofrece una guía práctica para reconocer voces sintéticas en tiempo real. Además, propone medidas de verificación antifraude para empresas y administraciones públicas, alineadas con el Reglamento General de Protección de Datos (RGPD) y la Ley de Inteligencia Artificial europea (AI Act).

JosepCurtoDiaz
Josep Curto Díaz. Fuente: UOC

 

“A medida que los modelos se perfeccionan, las señales de detección se vuelven más sutiles”, advierte Curto. Según el experto, la mayoría de los deepfakes de voz fallan no en el timbre, sino en cómo suena la conversación: entonación, ritmo, pausas o latencias sospechosamente uniformes. Por eso, en contextos cotidianos –como una llamada urgente o una videollamada improvisada– resulta difícil percibir las anomalías si no se sabe en qué detalles fijarse.

Curto recomienda aprender a distinguir entre artefactos de red (propios de una mala conexión) y fallos algorítmicos (propios de la IA). El especialista sugiere pequeños trucos para comprobar la autenticidad de una voz en directo: pedir que repita una frase inesperada, generar ruido de fondo o interrumpir brevemente la conversación. Si la entonación sigue siendo rígida o las pausas permanecen constantes, conviene activar un protocolo de verificación: devolver la llamada a un número verificado y comprobar una palabra clave previamente acordada. “La mejor defensa sigue siendo el escepticismo humano y la verificación por un segundo canal”, resume el profesor de la UOC.

Cinco señales para detectar una voz falsa

  1. Entonación poco natural: pausas uniformes, tonos planos o saltos abruptos.

  2. Artefactos sonoros: clics, brillos metálicos o limpieza excesiva del audio.

  3. Desajuste entre labios y voz en videollamadas: movimientos desincronizados o expresiones inertes.

  4. Microgestos incoherentes: mirada fija, parpadeo irregular, iluminación extraña.

  5. Latencia constante: demoras idénticas entre frases, poco propias de una conversación real.

bigstock Virtual Voice Computer Online  263715718
Fuente: BigStock

Detectores y marcas de agua: útiles, pero imperfectos

La detección automática de audios sintéticos se enfrenta a una carrera continua contra los avances de la IA. Curto menciona dos grandes líneas de defensa:

  • Modelos de detección forense, como los ASVspoof Challenges o herramientas como VerificAudio, que analizan patrones acústicos para descubrir huellas de entrenamiento de IA. Sin embargo, su fiabilidad puede variar según el idioma o el nivel de compresión del audio.
  • Marcas de agua (watermarking), como AudioSeal de Meta o SynthID de Google, que insertan señales imperceptibles en los archivos generados. Aunque prometedoras, estas tecnologías aún son vulnerables a transformaciones como compresión o reverberación.

Buenas prácticas para proteger la voz

  • Pedir consentimiento antes de grabar y revisar los permisos de asistentes de voz.

  • Usar autenticación multifactor con códigos o frases secretas rotativas.

  • Evitar publicar grabaciones largas y de alta calidad en abierto.

  • Incorporar música o ruido de fondo para dificultar la clonación.

  • En entornos sensibles, usar dispositivos o software que generen ruido blanco.

bigstock Voice Assistant Concept Micro 324799468
Fuente: BigStock

 

La investigación más reciente explora incluso técnicas para “envenenar” los datos de entrenamiento de los modelos de IA, añadiendo distorsiones imperceptibles que confundan a los algoritmos sin afectar la comprensión humana.

Protocolo para empresas y administraciones

Cuando se reciba una llamada con peticiones sensibles, la UOC propone tres pasos básicos:

  • Confirmar la identidad mediante una palabra de seguridad.

  • Romper el guion devolviendo la llamada a un número verificado.

  • Registrar el intento y escalarlo al departamento de ciberseguridad.

Este procedimiento, combinado con formación al personal, permite detectar intentos de fraude antes de que se produzcan daños económicos o de reputación.

Sobre el autor:

Cerlesky Pérez

… saber más sobre el autor