Faire dire n'importe quoi à n'importe qui: les progrès et dangers de l'intelligence artificielle sur les voix

Reproduire la voix d'un acteur ou d'un homme politique à la perfection, ce ne sera bientôt plus réservé aux imitateurs. Avec des logiciels capables de cloner n’importe quelle voix à partir de quelques mots seulement, et de faire dire n'importe quoi à n'importe qui !
Ça peut être la vôtre, la mienne, ou celle d’un acteur célèbre par exemple, reproduite à la perfection à partir d’un tout petit extrait vocal. Vous parlez pendant quelques secondes, vous prononcez quelques phrases.
Et à partir de ces quelques mots, cette IA - à laquelle on a appris à décortiquer et à recomposer une voix dans ses moindres nuances - va être capable de recomposer votre spectre vocal avec une infinie précision, et de vous faire dire potentiellement n’importe quoi.
Une révolution pour le doublage au cinéma?
Ces outils pourraient représenter une petite révolution pour l’industrie cinématographique, qui s’y intéresse de plus en plus: plus besoin de s’embêter avec des doublages approximatifs, on va juste traduire ce que dit l’acteur en VO, passer sa voix à la moulinette du logiciel, et on se retrouve avec une version française doublée plus vraie que nature, avec la vraie voix de l’acteur.
D'autant qu’on peut aussi utiliser l'IA pour faire légèrement bouger les lèvres de l’acteur à l’écran pour que ça "colle" avec ce qu’il dit. Ça peut fonctionner avec n’importe quelle langue, reproduire la voix d’un acteur en train de rire, de pleurer ou même de parler la bouche pleine.
On peut aussi s’en servir pour "ressusciter" la voix d’un acteur disparu, ou la voix de jeunesse d’un acteur qui a vieilli: de Clint Eastwood si on veut faire un flashback. Enorme enjeu, alors que les plateformes comme Netflix ont de plus en plus de contenus originaux dans toutes les langues qu’ils ont très envie d’exporter à l’international, car ils ont bien compris que ça pouvait générer des cartons d’audience au-delà de leur pays d’origine (Squid Game, Lupin, La Casa de Papel...).
Les applications pour ces voix synthétiques, mais ultra réalistes, sont nombreuses
Ça va du livre audio qui va pouvoir être lu à un enfant en utilisant la voix de ses parents - ou alors faire lire votre livre préféré par votre acteur préféré. La traduction instantanée peut aussi être utile: vous parlez en français, et votre interlocuteur entend votre voix mais en japonais. Ou encore dans un film ou un parc d’attractions, on pourrait avoir une reproduction plus vraie que nature d’un personnage historique qui nous parle comme s’il était en face de nous.
Même chose dans les jeux vidéo, avec la possibilité de personnaliser à l’extrême: le personnage que j’incarne à l’écran pourrait avoir ma voix. Et puis dans le domaine médical aussi, pour redonner une voix à ceux qui l’ont perdue.
Côté négatif, on va pouvoir usurper l’identité de n’importe qui
C'est ce qu’on appelle des "deepfake" vocaux. Il faut bien comprendre qu’en matière de fake news, on n’a encore rien vu. On pourra potentiellement reproduire la voix d’Emmanuel Macron ou de Joe Biden et leur faire dire potentiellement n’importe quoi. C’est ce que fait une entreprise qui s’appelle Lyrebird.
Encore plus dangereux si on couple ça avec des systèmes de truquage de vidéos qui sont eux aussi de plus en plus sophistiqués. Sans compter toute la partie cybercriminalité: les arnaques au président, où on se fait passer pour le patron d’une entreprise pour demander à un collaborateur un transfert d’argent urgent et évidemment frauduleux.
Ils vont être beaucoup plus difficiles à détecter: imaginez que votre supérieur hiérarchique vous appelle, c’est sa voix, vous la reconnaissez, après tout vous lui parlez tous les jours ! Sauf qu’en réalité, c’est une arnaque. On va arriver dans un monde où la frontière entre le vrai et le faux va devenir de plus en plus floue et de plus en plus compliquée à déceler.