Un rapport de l’entreprise Recorded Future, publié en mai 2023, rend compte de l’utilisation de deepfakes par les cybercriminels. Il montre comment ils utilisent le clonage vocal en combinaison avec d’autres tactiques d’ingénierie sociale pour arnaquer les entreprises.
Les deepfakes sont des techniques avancées d’intelligence artificielle (IA) qui utilise le « deep learning » pour créer des contenus synthétiques réalistes… mais faux (« fake »). Pouvant exister sous forme d’images, de vidéos ou d’enregistrements audio, le deepfake modifie ou remplace certains éléments de contenu par d’autres. Il utilise des algorithmes sophistiqués pour générer ces contenus artificiels en imitant l’apparence et le comportement de personnes réelles.
Le clonage vocal : vecteur de fraude et d’usurpation d’identité
Une des formes les plus préoccupantes du clonage vocal agit dans le domaine de la fraude bancaire. Les cybercriminels peuvent contourner les systèmes d’authentification vocale utilisés par les banques en manipulant des enregistrements préalables. Les escrocs utilisent également le clonage vocal pour se faire passer pour des dirigeants d’entreprises afin de tromper des institutions bancaires et effectuer des transferts frauduleux. Cette forme de deepfake est aujourd’hui très répandue grâce à sa commercialisation par des entreprises comme ElevenLabs. Des incidents de ce type ont pourtant déjà été repérés depuis 2018.
Des méthodes d’authentification supplémentaires ont été conçues pour rendre le clonage vocal difficile à utiliser en tant que vecteur d’attaque unique. Par exemple, des mots de passe complexes ou des numéros PIN sont souvent employés pour sécuriser en amont l’accès aux comptes des clients. On demande aussi aux clients d’énoncer une phrase clé ou de répondre à une question de sécurité.
Cependant, ces dispositifs ne fonctionnent que contre des modèles de deepfakes préenregistrés. Or de nouveaux modèles open-source et expérimentaux appelés des AutoGPT existent désormais. Ces modèles permettent aux chercheurs d’exploiter le modèle de langage GPT-4 d’OpenAI, créant des agents d’intelligence artificielle personnalisables et entièrement autonomes. Un modèle AutoGPT peut donc entretenir une conversation en temps réel avec une personne.
Le deepfake vidéo : l’extension du clonage vocal
Depuis 2018, les chercheurs sont capables de générer des vidéos convaincantes mettant en scène une personne spécifique mais il était nécessaire de créer une vidéo et de la publier en ligne ou d’avoir une personne qui jouait le rôle de porte-parole. Le deepfake vidéo peut être employé à des fins diverses. Il peut par exemple prendre la forme d’un entretien d’embauche fictif.
Cette forme de deepfake ne représente pas une menace aussi forte pour les entreprises que son homologue vocal. Notamment car elle est techniquement plus compliquée à mettre en œuvre. Néanmoins, selon Romain Warlop (PhD), chercheur en data science et en intelligence artificielle au sein de Fifty-Five, la diffusion de vidéos synthétiques en temps réel sera un outil disponible très prochainement. « Côté technique, cela marche plutôt bien, illustre Romain Warlop. Je pense que si je faisais face lors d’un entretien à un faux data scientist généré par deepfake, il serait possible que je l’embauche. »
Les failles des deepfakes : les formes variées de sécurisation
Plusieurs méthodes existent pour contrer les deepfakes. L’utilisation d’un logiciel d’analyse vocale en temps réel aide à détecter les anomalies dans les enregistrements vocaux et l’implémentation de technologies anti-spoofing peut contribuer à détecter les voix préenregistrées. De plus, demander à son interlocuteur de faire une action inhabituelle comme passer sa main devant son visage peut permettre de détecter un clonage vidéo.
Au-delà de la simple détection visuelle ou auditive, certaines techniques se concentrent sur l’empreinte d’un algorithme. Chaque algorithme possède sa propre empreinte numérique, caractérisée par des données d’entraînement, des paramètres et une structure spécifique. Des chercheurs se penchent sur ces empreintes pour identifier l’algorithme à l’origine d’une image ou d’un son. Cependant, cette approche a ses limites car elle ne peut reconnaître que les empreintes qu’elle connaît déjà.
Lorsqu’il s’agit de vidéos, d’autres technologies ont donc été développées. Une d’entre elles est l’analyse des mouvements du visage pour mesurer le rythme cardiaque à partir des changements de couleur provoqués par les variations de pression sanguine. « Les créateurs de deepfakes se concentrent principalement sur la cohérence visuelle et l’échange d’expressions faciales entre différentes images, négligeant les micro-mouvements et les micro-changements de couleur », explique Romain Warlop.
Les algorithmes de détection actuels sont efficaces mais les deepfakes sont le résultat de deux algorithmes en compétition : l’un génère une image ressemblant à la réalité, l’autre tente de détecter si l’image est authentique. Le succès du premier modèle repose sur sa capacité à tromper le second, ce qui alimente le développement de nouvelles techniques de détection pour contrer les prochaines générations de deepfakes. « C’est un jeu du chat et de la souris », indique Romain Warlop. « Chaque avancée dans les algorithmes de détection incite les créateurs de deepfakes à développer de nouvelles techniques pour contourner ces défenses. »