Perception et traitement automatique de la variation dans la parole

Membres : Ioana Vasilescu, Philippe Boula de Mareüil, Gilles Adda, Alexandre Allauzen, Eric Bilinski, Lori Lamel, Hélène Maynard, Albert Rilliard, Sophie Rosset (ILES) et Frédéric Vernier (AMI). En collaboration avec Martine Adda-Decker (LPP)

Les activités autour du thème « Perception et traitement automatique de la variation dans la parole » ont comme objectif de circonscrire et de modéliser la variation présente dans la parole, qu'il s'agisse de variation diatopique, diastratique, diaphasique ou diachronique. La méthode adoptée comprend une analyse statistique de grands corpus oraux (utilisant notamment des systèmes de reconnaissance de la parole comme outils d'exploration linguistique) et l'exploitation de la composante perceptive, via des comparaisons humain/machine dans différentes configurations expérimentales. Ces dernières années, nous avons concentré nos efforts autour de deux axes.


D'une part, nous avons abordé la variation orale dans des grands corpus multilingues, dans différentes langues et notamment dans les langues romanes (HDR de I. Vasilescu). Nous avons décrit des instances de variation mais également abordé des questions fondamentales telles que le statut phonologique de certaines unités phonétiques fortement fluctuantes (souvent à l'origine d'erreurs de transcription automatique de la parole), la variation synchronique vs les changements phonétiques (Vasilescu et al, Linguistic Vangard), l'interface phonétique vs morpho-phonologique ou encore les paramètres acoustiques du code switching français/arabe. Pour ce qui est de la perception, nous avons continué d'exploiter des paradigmes permettant de mieux comprendre les défis des systèmes dédiés au traitement de la communication parlé, en nous focalisant sur la catégorisation humaine de la gravité des erreurs de transcription automatique et sur la comparaison humain/système dans la catégorisation des entités nommées.


D'autre part, nous avons poursuivi des activités de documentation des accents et langues régionales via l'acquisition de données permettant de cartographier la variation diatopique (en particulier en français). Le fruit de cette seconde activité prend de plus en plus la forme d'atlas dialectologiques des accents et langues régionales de France. Nous avons exploré la notion de phono-style et surtout d'accents (étrangers et régionaux), en partant du français et en élargissant l'éventail de langues étudiées à l'italien, à l'allemand et au portugais. En commençant le plus souvent par des expériences perceptives et en menant en parallèle ou ensuite des analyses acoustiques, nous nous sommes efforcés de mettre en relation ces deux volets perceptif et acoustique. Dans plusieurs études, la recopie de prosodie et l'imitation ont été utilisées, deux paradigmes qui permettent de discerner les aspects prosodiques caractérisant divers styles ou accents. Notre intérêt pour les accents régionaux nous a en outre conduits à investir le champ des langues régionales de France, dans lesquelles nous avons multiplié les enquêtes de terrain (dans plus de 200 points d'enquête). Un atlas sonore a ainsi été mis au point, visant à mettre en valeur la diversité linguistique de la France hexagonale et des Outre-mer, à travers une même histoire, traduite dans nombre de langues et représentée sur une carte interactive, avec une transcription orthographique des enregistrements recueillis. Une soixantaine de langues régionales et non-territoriales (telles le romani et la LSF) est ainsi illustrée, dont la moitié en Océanie. Les enregistrements recueillis ont également contribué à l'identification et à la caractérisation d'accents régionaux en français, à travers des études à grande échelle (à base de crowdsourcing).

Lien vers l'atlas des langues régionales de France :

Atlas sonore

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Rapport scientifique

 

Le LIMSI en chiffres

7 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 

Paris-Saclay nouvelle fenêtre


Logo DataIA

 

© 2017 LIMSI CNRS