Tandis que l’attention se porte principalement sur les créateurs de textes et d’images par intelligence artificielle, les dispositifs de reproduction vocale se perfectionnent petit à petit. Nous expliquons en détail ce que cela signifie.
En 2016, Adobe révélait VoCo lors de la conférence Adobe MAX 2016, son premier logiciel dédié à la manipulation de voix par intelligence artificielle, comparé à un “Photoshop pour le son”.
Il demandait seulement 20 minutes d’échantillons vocaux pour établir une synthèse vocale. Ce progrès technologique rapide a soulevé des inquiétudes quant à l’usage malintentionné qui pourrait en être fait, tel que la diffusion de fausses informations, des escroqueries ou encore le détournement d’empreinte vocale. Eddy Borges-Rey, qui était alors enseignant en médias et technologies à l’université de Stirling (Ecosse), a déclaré à la BBC que les créateurs d’Adobe paraissaient déconnectés des implications éthiques de leur invention.
Depuis, l’IA générative fait constamment de nouvelles avancées dans le domaine du son, mais aussi dans ceux des images et des textes.
Qu’en est-il du regard que nous avons aujourd’hui sur le clonage vocal ?
Faisons le point sur les progrès accomplis dans ce domaine et sur les potentialités dangereuses que celui-ci représente.
L’essor du clonage sonore via des technologies efficaces
Malgré l’intérêt manifesté par Adobe pour cette technologie, le programme VoCo signerait son arrêt depuis 2019.
Cependant, ce retrait a permis à d’autres entreprises de proposer leurs propres solutions de clonage vocal. En 2017, la startup LyreBird réussissait à reproduire les voix des présidents américains Barack Obama et Donald Trump, fabricant ainsi une fausse conversation entre eux. Ces voix, malgré leur altération, étaient aisément identifiables.
Mieux encore, en début 2023, ElevenLabs, crée par un ancien ingénieur Google, a lancé une version test de son logiciel. Accessible en ligne, il reproduit avec précision n’importe quelle voix à partir d’une injection sonore d’une seul minute. Il peut alors réciter un texte, avec un réalisme stupéfiant.
Les plus grands noms du monde digital tels que Microsoft et Apple se montrent également très investis dans ce type de développement. Le premier travaille sur un modèle de clonage vocal par intelligence artificielle appelé VALL-E qui serait capable de préserver le ton et l’émotion émanant de la voix cible. Ceci rend la distinction entre la synthèse et la réalité encore plus difficile.
De son côté, Apple a développé un outil semblable, Personal Voice, destiné à aider des individus menacés d’une perte de la parole à cause de pathologie telles que la maladie de Charcot. Après une quinzaine de minutes de capture vocale, ils peuvent faire lire le texte de leur choix par leur smartphone qui restitue leur voix grâce à Life Speech.
La performance de ces technologies est prouvée par une récente étude de McAfee qui indique qu’en utilisant un enregistrement de 3 simples secondes, un clone vocal IA est capable de restituer 85% de similitude avec la voix originale.
Clone vocal : la menace de l’usage abusif
L’augmentation de l’utilisation de ces technologie génère inévitablement des menaces de malfaçons, comme on a pu le constater avec les générateurs de texte et d’images. Le clonage d’un son laisse craindre la possibilité d’apparition de “fake news” ou d’arnaque avec une nouvelle physionomie sonore, ou l’utilisation illégale de la voix d’artiste.
Anonymat face à la désinformation
Peu après sa création, ElevenLabs se trouve confronté à des utilisations offensantes de sa technologie. Des internautes ont effectivement généré des vidéos dans lesquelles l’actrice Emma Watson semblait donner la lecture d’extraits de “Mein Kampf”.
L’utilisation de cette technologie pourrait inciter au développement de deepfakes, d’audio trompeurs visant des personnalités publiques ou politiques.
L’élection américaine de 2020 a été le théâtre d’un bon nombre de menaces audio et vidéo visant à influencer l’élection. En assemblant différentes technologies, les possibilités de manipulation de l’information sont donc pratiquement illimitées, comme l’a fait remarqué Marie Crappe, Directrice des données chez Choose, durant une conférence lors du Web2day.
L’apparition d’un nouveau genre d’escroquerie
Il y a quelques mois, la chaîne américaine AZ Family retraçait l’épreuve de Jennifer DeStefano, une mère arizonéenne victime d’une tentative d’intimidation. Au téléphone, Jennifer a entendu sa fille de 15 ans sembler demander de l’aide, avant qu’une personne ne lui somme de payer une rançon.
En vérité, sa fille était en sécurité mais les arnaqueurs avaient manipulé sa voix avec une intelligence artificielle. Selon Jennifer, distinguer la véritable voix de sa fille de son imitation était quasiment impossible.
D’après une étude de McAfee, ces cas ne sont pas isolés. Les experts sont unanimes et s’accordent pour dire qu’un français sur quatre a déjà été victime d’une arnaque au clonage vocal ai, et 77% des gens s’étant fait avoir ont subi une perte financière. Cette statistique est préoccupante quand on sait que 56% des français partagent leur voix toutes les semaines ou encore du fait qu’ils laissent des messages vocaux
Beaucoup de questions autour des droits d’auteur
Aussi plutôt dans que lors de l’avènement des technologiques génératives d’images, la création de voix artificielles est un défi pour les entreprises et cela peut-être menaçant pour les professionnels qui usent de leur voix comme les chanteurs et les voix off.
A la direction de l’industrie musicale, les premières musiques créées par des IA se sont rapidement multipliées sur internet.
En début d’année, David Guetta a même publié une titré utilisant la voix de Eminem, renommée ici Emin-AI-em, ce qui est une conséquence de son utilisation abusive. Le musicien décide cependant de ne pas monétiser cette chanson et de l’utiliser dans le domaine du commerce.
Quelles sont les barrières impliquées ?
L’IA Act : créer de la législation contrant les manipulations sonores
L’IA ACT est une législation européenne qui a pour objectif d’imposer certaines pratiques. Après la sortie des différentes appliques dont nous avons parlé, ces lois seront mises en place plus rationnellement afin d’éviter d’avoir à faire face à des situations enfreignant les lois interdites telles que l’indication d’un faux contenu généré par une machine pour le faire passer en quelque chose de ne fait.
Quelle sécurité accepter pour nos artistes
Pour le moment, les chanteurs comme les dubbers et toutes ceux qui voudraient posséder une voix pour sécurité, n’ont que très peu d’accès aux droits d’auteurs. C’est pourquoi une récente revendication de ce droit a été demandée par le collectif United Voice Artists composes d’associations assez diverses venant des 4 coins du monde et tout particulièrement s’associations originaires de l’UE.
Ce dernier propose d’agir dans le même en signant un manifeste à l’intention des responsables européens. Cela permettrait aussi de demander l’utilisation des voix par des intelligence artificielles génératives pour en déterminer l’aspect d’enregistrements sonores.