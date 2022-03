Lecture sur les lèvres, aide au langage des signes... Dans "Estelle Midi" ce jeudi sur RMC et RMC Story, Anthony Morel nous présente les toutes dernières innovations qui pourraient changer la vie des 7 millions de Français qui souffrent d’un déficit auditif.

Sept millions de Français souffrent d’un déficit auditif. Face à cet enjeu, toutes les grandes entreprises travaillent pour trouver des solutions. La première, c'est une intelligence artificielle qui s'attaque a un exercice très compliqué, même quand on en a l'habitude: lire sur les lèvres.

La "VSR" ou l'intelligence artificielle pour lire sur les lèvres

Google, Samsung, Sony, Alibaba… tous les grands groupes tech travaillent depuis des années sur le "VSR", visual speech recognition, c'est-à-dire des logiciels capables de lire les mouvements des lèvres et de les retranscrire avec beaucoup plus de précision qu’un être humain.

L’un des premiers programmes a été développé en 2016 par Google et des chercheurs de l’université d’Oxford. On a entraîné un algorithme en lui faisant regarder 5000 heures de programme de la BBC et on lui appris à détecter que tel mouvement des lèvres correspond à telle syllabe. A partir de ça, il est capable de recomposer des mots et des phrases. Le taux de réussite est de 46% des mots reconnus, contre 12% pour un humain.

La technologie la plus précise est celle du chinois Alibaba, développée il y a deux ans. Son taux d’erreur serait de moins de 3%, ce qui est assez fou. Donc on pourrait concevoir des aides auditives de nouvelle génération, équipées de micro caméras et capables de déchiffrer les mouvements des lèvres.

Un problème pour le respect de la vie privée?

Mais au-delà de ça, cette technologie pourrait être utilisée dans des objets de la vie courante, par exemple les smartphones, pour utiliser la fonction reconnaissance vocale (comme dicter un SMS) dans un lieu très bruyant. La caméra du téléphone pourrait alors analyser les mouvements de nos lèvres pour comprendre ce que l’on dit.

Le problème c’est que ça pourrait aussi créer des problèmes de respect de la vie privée. Ce qui en ferait aussi un outil d’espionnage assez redoutable, surtout couplé avec des zooms de plus en plus puissants. Il suffirait de pointer son smartphone à distance sur une conversation pour en avoir tous les détails. Cette technologie pourrait aussi aboutir à des caméras de vidéosurveillance capables de "lire" ce que l'on dit.

La tech pour démocratiser la langue des signes

Les innovations permettent aussi de développer l'accès au langage des signes, à la télé notamment. En utilisant l’IA, lors des JO de Pékin, le Google chinois, Baidu, a mis au point des humains virtuels, sortes de personnages de jeux vidéo assez réalistes, qui traduisent en temps réel et non-stop tous les commentaires, les journaux.

Ces systèmes très aboutis mêlent analyse du langage (comme les assistants vocaux intelligents) et système de traduction instantanée. Souvent les systèmes de traduction en langue des signes sont seulement à certains moments de la journée, là on peut faire du non-stop. On peut aussi citer les jeux vidéos, qui commencent à être traduits en langue des signes, avec un traducteur en bas de l’écran.

Des gants pour démocratiser la langue des signes

Le gros problème de la langue des signes, c’est qu’à part les 70 millions de personnes sourdes qui l’utilisent, personne ou presque ne le comprend, compliquant la communication. D’où ce dispositif très ingénieux mis au point par des chercheurs d’UCLA qui prend la forme d’une paire de gants bourrés d’électronique.

Des capteurs de mouvement placés sur chaque doigt vont analyser à chaque instant la position et les mouvements des doigts. Si je fais par exemple le signe "bonjour" - j’approche puis j’éloigne ma main de ma bouche - les gants vont analyser mon geste, envoyer cette information vers le smartphone de mon interlocuteur, qui va comparer ces mouvements à une biobliothèque de signes existants, une sorte de dictionnaire des signes, et si ça correspond, l’ordinateur ou le smartphone vont énoncer vocalement ce à quoi les signes correspondent.