Gaël Richard, chercheur du son

Gaël Richard remporte le Grand Prix IMT-Académie des Sciences 2020.

Synthèse vocale, séparation des sons, reconnaissance automatique des instruments ou des voix… les recherches de Gaël Richard à Télécom Paris portent depuis ses débuts sur le traitement du signal sonore. Il est à l’origine de nombreuses méthodes d’analyse des signaux acoustiques qui lui ont permis de contribuer grandement à sa discipline. Elles sont aujourd’hui utilisées dans différentes applications pour les industries automobile et musicale. Ces apports au milieu académique et au transfert technologique valent à Gaël Richard de recevoir le Grand Prix IMT-Académie des sciences 2020.

 

Vos premiers travaux de recherche dans les années 1990 portaient sur la synthèse vocale : pourquoi avoir choisi cette discipline ?

Gaël Richard : À l’origine, je n’avais pas d’aspiration à être chercheur ; je voulais devenir musicien professionnel. Après mon bac je me suis donc concentré sur la musique classique, avant de reprendre finalement des études scientifiques. Puis j’ai poussé mes études vers les mathématiques appliquées, et en particulier sur le traitement du signal sonore. C’est au moment de mon stage de Master, et ensuite de ma thèse, que j’ai commencé à travailler sur la synthèse de la voix chantée, et la synthèse de la parole. Au début des années 1990, les premiers systèmes de synthèse vocale parfaitement intelligible venaient d’apparaître. L’objectif était alors de trouver des qualités sonores moins robotiques, et de produire des voix synthétiques avec plus de caractère et plus de capacités de modifications.

Quelles ont été vos recherches sur le sujet de la synthèse vocale ?

GR : Au début, je travaillais sur la synthèse par des approches de traitement de signal. La voix est considérée comme produite par une source, les cordes vocales, qui passe par un filtre, la gorge et le nez. L’idée est de représenter le signal vocal à l’aide des paramètres de ce modèle pour, soit modifier un signal enregistré, soit générer un nouveau signal par synthèse. J’ai également fait une brève parenthèse sur la synthèse par modélisation physique. Dans ce cas, l’approche consiste à représenter la production de la voix par un modèle physique : les cordes vocales sont des ressorts sur lesquels agit la pression de l’air. Nous adoptons ensuite des principes de mécanique des fluides pour modéliser l’écoulement de l’air dans le conduit vocal jusqu’aux lèvres.

Aujourd’hui, quelles sont les problématiques de recherche en synthèse vocale qui vous occupent ?

GR : Progressivement, j’ai étendu mon champ de recherche à d’autres sujets que celui de la synthèse vocale, mais je continue de mener quelques travaux dessus. J’encadre par exemple un doctorant qui cherche à comprendre comment adapter une voix pour qu’elle soit plus intelligible dans le bruit. Nous sommes naturellement capables de changer notre voix pour être mieux compris dans un environnement bruyant. L’objet de sa thèse, qu’il réalise avec le groupe Peugeot, est ainsi de transformer la voix d’une radio, d’un assistant de navigation (GPS), ou d’un téléphone qui a été initialement prononcée dans un environnement silencieux, de telle sorte qu’elle soit plus compréhensible dans l’habitacle d’une voiture en mouvement, sans pour autant l’amplifier.

C’est dans le cadre de vos travaux en analyse des signaux sonores que vous avez mis au point différentes approches de décomposition du signal, et notamment celles basées sur la « factorisation en matrices non-négatives ». Il s’agit d’un des grands résultats de votre carrière de chercheur, pouvez-vous expliquer ce qui se joue derrière ce terme complexe ?

GR : Une méthode ancestrale de la synthèse vocale est l’approche additive : on ajoute petit à petit les composantes élémentaires du signal sonore. Dans le cas de la synthèse vocale, cela veut dire associer des formes d’onde simples — des sinusoïdes — pour créer des signaux riches. Pour décomposer un signal que l’on souhaite étudier, comme une voix chantée réelle, on peut logiquement procéder à l’inverse : on prend le signal de départ et on le décrit sous forme de composantes simples. Il reste ensuite à dire quelle composante s’active à quel moment pour recréer le signal dans le temps.

La factorisation en matrices non-négatives est une méthode qui permet d’obtenir une telle décomposition sous la forme de la multiplication de deux matrices : une matrice représente le dictionnaire des composantes élémentaires du signal, et une autre matrice représente l’activation des éléments du dictionnaire au cours du temps. Associées, ces deux matrices permettent de décrire le signal sonore sous forme mathématique. Et « non-négatives » signifie simplement que chaque élément de ces matrices est positif ou encore que chaque source ou chaque composante contribue positivement au signal, et qu’il n’y a pas de signal destructeur parmi les composantes.

Pourquoi cette approche de description du signal est-elle si intéressante ?

GR : Cette décomposition est très efficace pour injecter de la connaissance a priori dans la décomposition. Par exemple, si dans un son nous savons qu’il y a un violon, nous pouvons injecter dans le dictionnaire cette connaissance en précisant que certains des atomes élémentaires du signal seront caractéristiques du violon. Cela permet d’affiner la description du reste du signal, et donc de le décrire plus précisément. C’est une description astucieuse car elle est à la fois simple dans son approche et sa manipulation, et utile pour travailler efficacement sur le signal décomposé.

Cette méthode de factorisation en matrices non-négatives vous a orienté vers d’autres sujets que la synthèse vocale. Quelles sont ses applications ?

GR : L’une des grandes applications de cette technique est la séparation des sources. Une de nos premières approches était pour l’extraction de la voix chantée parmi des instruments. Le principe est de dire que pour une source donnée, toutes ses composantes élémentaires s’activent en même temps — toutes les harmoniques d’une note jouée par un instrument par exemple. En simplifiant, on peut dire que la factorisation en matrices non-négatives permet d’isoler chaque note jouée par un instrument donné, en les représentant comme une somme de composantes élémentaires (certaines colonnes de la matrice « dictionnaire ») qui sont activées au cours du temps (certaines lignes de la matrice « activation »). À la fin du procédé, nous obtenons une description mathématique dans laquelle chaque source a son propre dictionnaire d’atomes sonores élémentaires. On peut ensuite rejouer uniquement la séquence de notes jouées par un instrument donné en reconstruisant le signal par multiplication des matrices non-négatives, après avoir mis à zéro toutes les activations de notes qui ne correspondent pas à l’instrument que l’on veut isoler.

Quelles perspectives sont ouvertes par la finesse de cette description ?

GR : Aujourd’hui, nous travaillons sur de la séparation des sources sonores à partir de l’ajout de connaissances ou signaux annexes. Un doctorant que je co-encadre utilise notamment la connaissance des paroles pour séparer des voix chantées, et faciliter leur extraction. Les applications sont multiples : de la génération de karaoké automatique en supprimant la voix détectée, au remastering des voix dans le cinéma pour changer un mixage ou remplacer la langue d’un film. Et j’ai une autre doctorante dont la thèse porte sur la séparation de la voix chantée à partir du signal d’un électroencéphalogramme (EEG). Le principe est de demander à une personne de porter un casque EEG et de focaliser son attention sur une des sources sonores. Il est ensuite possible d’en tirer une information via l’activité cérébrale enregistrée, et de l’utiliser pour améliorer la séparation de sources.

Vos travaux permettent d’identifier des sources sonores spécifiques en traitant le signal sonore ; au point de faire de la reconnaissance automatique ?

GR : Nous avons en effet travaillé sur de la classification automatique des sons, d’abord par des essais sur la reconnaissance des émotions, et notamment la peur ou la panique. C’était un projet mené avec Thalès pour anticiper les mouvements de foule. Au-delà de la détection de l’émotion, nous essayions de mesurer la croissance ou la décroissance de la panique. Il n’existe cependant que très peu de jeux de données sonores sur ce sujet, ce qui est apparu comme un vrai défi pour ce travail. Sur un autre sujet, nous travaillons aujourd’hui avec Deezer autour de la détection automatique de contenus injurieux ou inadaptés aux enfants, pour proposer par exemple un service de type filtre parental. Dans un autre travail sur des vidéos de type publicitaire mené avec Creaminal, nous détectons des éléments clés ou culminants en matière d’émotions des vidéos, pour proposer automatiquement la musique la plus appropriée au bon moment.

Sur le sujet de la musique : vos travaux sont-ils utilisés pour de la détection automatique de morceaux, comme ce que fait l’application Shazam ?

GR : Shazam utilise un algorithme de type empreinte. Lorsque vous l’activez, l’application va enregistrer l’empreinte musicale sur une certaine durée. Il compare cette empreinte avec sa base de données. Très efficace, ce système se limite cependant à reconnaitre un enregistrement totalement identique. Nous cherchons à aller plus loin, en reconnaissant des versions légèrement différentes d’un morceau, comme des live, ou des reprises par d’autres chanteurs ou des amateurs alors que nous avons uniquement en mémoire la version studio. Nous avons déposé un brevet sur une technologie qui permet d’aller plus loin que l’algorithme d’empreinte initial, trop limité pour ce genre d’application. Nous exploitons notamment une étape d’estimation automatique du contenu harmonique, ou plus précisément des séquences d’accords musicaux. Ce brevet est au cœur d’un projet de start-up.

Vos recherches sont très en lien avec le milieu industriel, et ont donné lieu à de nombreux transferts technologiques. Mais vous avez également plusieurs contributions de logiciels libres destinés à la communauté.

GR : L’une des plus grosses contributions de l’équipe dans ce domaine est le logiciel d’extraction audio YAAFE. C’est un de mes articles les plus cités, et un outil encore téléchargé régulièrement, bien qu’il date de 2010. De manière générale, je défends une approche de reproductibilité de la recherche et publie le plus systématiquement possible les algorithmes des travaux menés. C’est de toute façon une orientation très forte du domaine de l’IA et de la science des données, qui accompagne clairement le boom de la discipline. Nous faisons également des efforts importants pour distribuer les bases de données constituées par nos travaux. C’est crucial également, et c’est toujours une satisfaction de voir que les bases ont un impact fort dans la communauté.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *