Recherche en cours : la biométrie vocale, des travaux qui laissent sans voix !

Recherche en cours : la biométrie vocale, des travaux qui laissent sans voix !

De nos jours, de plus en plus d’applications fonctionnent autour de la voix et, plus particulièrement, de la reconnaissance vocale. Une approche technologique qui, en plus de ne pas être sans risque, requiert un important travail de la part de chercheurs à travers le monde, y compris à l’EPITA via le groupe de travail du Laboratoire Sécurité & Système (LSE) dédié à la reconnaissance automatique du locuteur et du langage (ESLR).

 

En marge du nouvel épisode vidéo de la série « Recherche en cours, EPITA Laboratoire d’innovation » produite par l’école, Reda Dehak, enseignant-chercheur au sein de l’Équipe Intelligence Artificielle et spécialiste de la biométrie vocale, prend justement la parole pour expliquer son métier et l’intérêt de ses travaux.

 

 

Quelle est votre définition de la recherche ?

Reda Dehak : C’est essayer de faire avancer l’état de l’art actuel, c’est-à-dire ce qu’on sait faire de mieux aujourd’hui, pour tenter d’apporter de la nouveauté dans le but d’améliorer ce qui existe. Une société sans recherche serait comme un jour sans lendemain, une vie sans avenir. Sans recherche, impossible de faire de nouvelles choses. Et sans nouveauté, on n’avance pas : on recule !

Quel est votre domaine de recherche ?

Je travaille dans un domaine particulier qui est lié au traitement automatique de la parole, ce qu’on appelle aussi dans notre jargon la « biométrie vocale » et, dans un autre registre plus simple, l’identification du locuteur ou la reconnaissance par le biais de la voix. Le but est donc de reconnaître quelqu’un par la voix comme peut le faire n’importe quel être humain via le visage. La voix qu’on cherche à reconnaître provient soit d’un enregistrement audio ou vidéo, soit d’une écoute téléphonique. Or, comme le développement des smartphones et des applications mobiles est devenu de plus en plus important aujourd’hui, il est fondamental de pouvoir identifier correctement les personnes avec lesquelles nous sommes en train de parler et donc de s’intéresser à sécuriser ces systèmes en utilisant la voix humaine qui est la seule information disponible via ces moyens de communication.

 

Auriez-vous un exemple d’utilisation de la biométrie vocale ?

Dans le milieu classique, les utilisations les plus importantes sont celles intervenant lors des investigations judiciaires, quand une personne est mise sur écoute téléphonique. Pour étayer les preuves, il faut pouvoir être en mesure d’identifier qu’il s’agit de la bonne personne en train de parler ! Pour autant, la recherche dans ce domaine ne permet pas encore aujourd’hui de vérifier à 100 % l’identité du locuteur car la parole souffre d’énormément de variabilité – quand quelque chose change de forme, elle en devient beaucoup plus difficile à identifier. Notre but est alors d’améliorer la robustesse de ces systèmes et de fournir des méthodes ainsi que des algorithmes de plus en plus performants pour y remédier. C’est un défi car on ne parle pas de la même façon selon notre humeur ou notre état de fatigue par exemple ! À cela s’ajoute aussi une deuxième variabilité importante liée à l’environnement car vous pouvez aussi bien parler dans un lieu calme que dans une rue avec du bruit ambiant, ce qui va rajouter une complexité supplémentaire. Enfin, il y a une troisième variabilité liée à la captation de la parole – il existe plusieurs sortes de microphones, avec des réponses impulsionnelles différentes – et une quatrième rattachée au canal de diffusion – la transmission de la parole dans les réseaux de communication utilise de la compression et donc de la perte. En résumé, toutes ces problématiques sont à prendre en compte et il faut trouver le moyen de jongler avec en façonnant le système le plus robuste possible. D’ailleurs, la parole véhicule un tas d’autres informations et, au sein du laboratoire, on ne travaille pas que sur l’identification du locuteur : on s’intéresse aussi à la reconnaissance d’émotions dans la voix, la reconnaissance du langage…

 

Recherche en cours : la biométrie vocale, des travaux qui laissent sans voix !

 

Sur quelles technologiques reposent la biométrie vocale ?

La biométrie vocale repose sur des techniques d’analyse spectrale de la voix pour extraire les meilleures caractéristiques et des techniques d’apprentissage automatique (modèle statistique et réseaux de neurones profonds) pour modéliser l’empreinte vocale.

Sur le point de vue pratique, nous en avons deux sortes. D’un côté, il y a les technologies qui se basent sur les « passphrases » : il faut une phrase précise pour être identifié. C’est une technologie qui peut être facilement déjouée car il suffit d’enregistrer cette « passphrases » et de la rejouer pour enclencher l’identification. De l’autre, il y a les technologies plus sûres dites de « text independent » et c’est sur elles que l’on travaille. Cela signifie que l’identification est indépendante de la phrase prononcée. Or, maintenant qu’arrivent des systèmes de génération d’audio, on se retrouve confronté à de potentielles usurpations d’identité. On a, par exemple, des solutions de conversion de voix qui cherchent à transformer mon « bonjour » en votre « bonjour ».  D’autres systèmes de génération assez robustes, quand ils disposent d’assez d’enregistrements vous concernant dans leur base de données, sont également capables de générer de l’audio correspondant à votre voix à partir de rien (WaveNet) : c’est un deep fake de l’audio ! Et même si ces nouveaux outils peuvent donner lieu à des usurpations à but humoristique, à la manière des imitateurs, ils peuvent aussi être utilisés de façon malveillante et nuire aux personnes. D’où l’intérêt de continuer à mener nos travaux de recherche pour contrer ce nouveau problème.

 

Les étudiants de l’EPITA participent également à vos travaux ?

Comme ce domaine de recherche fait appel à des notions mathématiques et statistiques très poussées, au-delà de ce que propose le cursus de l’EPITA, ce n’est pas évidement de pouvoir intégrer des étudiants à nos recherches. Toutefois, nous faisons en sorte de les faire intervenir sur certaines sous-parties du projet, qui sont nombreuses ! L’objectif est de leur faire comprendre ce qu’est la recherche et ce qui se cache derrière les systèmes de nos smartphones, de Siri, Google Assistant et d’Alexa, entre autres.

 

Recherche en cours : la biométrie vocale, des travaux qui laissent sans voix !

 

Travaillez-vous avec d’autres chercheurs en dehors de l’EPITA ?

Bien sûr, autour de ce sujet, nous ne sommes pas seuls : il y a toute une communauté en France et à l’international qui travaille sur le sujet. Nous nous rencontrons régulièrement à l’occasion de conférences, de workshops ou de concours, pour échanger sur les avancées de chacun, nouer de belles amitiés et, parfois, donner lieu à des collaborations prometteuses. Ces interactions sont essentielles car, la recherche, c’est aussi du temps long. D’ailleurs, en tant que chercheurs, on ne pense pas directement à l’application de nos recherches ni à l’impact que pourraient avoir nos travaux car les résultats de ces derniers ne s’appliquent généralement pas avant une voire plusieurs années. Un bon exemple justement, c’est la biométrie vocale : à ce jour et malgré les avancées réalisées, elle ne constitue toujours pas une preuve suffisante pour faire condamner une personne en France devant la justice. Certes, c’est un élément versé au dossier, mais il ne peut pas être la principale preuve, alors que nous arrivons pourtant à obtenir des performances similaires à celles d’une empreinte digitale. En fin de compte, ce n’est pas le métier du chercheur que de mettre en application ce qu’il trouve, tout simplement parce que cela requiert d’autres compétences et, bien souvent, d’autres moyens plus importants.

 

Quelle est votre plus grande fierté en tant que chercheur ?

Après toutes ces années, je continue d’être passionné par le traitement automatique de la parole et suis toujours très content de travailler dessus ! Quand on sait que ce domaine peut servir à sauver des vies en innocentant un prévenu ou en prévenant un attentat, cela vous fait forcément vous sentir utile. De toute façon, quand on est chercheur, on ne l’est pas juste tel ou tel jour : on l’est à 100 %, constamment. On se documente en permanence, y compris durant les vacances et les week-ends, on travaille parfois le soir sur nos sujets… C’est aussi passionnant que prenant. Et personnellement, je ne saurai dire comment j’en suis arrivé à en faire mon métier : c’est devenu une évidence au fur et à mesure. Et c’est un peu la même chose pour la biométrie vocale. J’ai commencé à m’intéresser il y a une dizaine d’années car je travaillais dans l’apprentissage automatique et que c’était l’un des rares domaines disposant d’énormément de données pour faire des systèmes d’apprentissage automatique.

 

Recherche en cours : la biométrie vocale, des travaux qui laissent sans voix !