Jean-Sylvain LIÉNARD (LIMSI, DR Emerite)

3 octobre 2017 à 11h30

Rôle et estimation de l'effort vocal

L'effort vocal (EV) est à la fois un facteur de variabilité de la parole et une grandeur acoustique utilisée par les interlocuteurs pour échanger diverses informations dans une situation de communication donnée. L'EV, notion qualitative issue de la phoniatrie, peut être représenté par une mesure d'intensité objective, en décibels, appelée force de voix (FDV). Diverses études ont montré que la variation de l'EV entraînait des variations notables dans toutes les dimensions et sous tous les aspects du signal de parole. Du point de vue perceptif ces variations portent des informations sur l'intention du locuteur à l'égard de son auditeur (choix d'un auditeur), ainsi que sur les conditions de l'échange oral (distance estimée, bruit, réverbération). Du point de vue du traitement automatique (parole, locuteur, diarization) la FDV est actuellement un grand facteur d'incertitude. Avec Claude Barras, dans le cadre de deux Actions Incitatives du LIMSI, nous avons mené plusieurs études sur l'estimation de la FDV à partir du spectre, à partir de deux bases de données limitées (voyelles isolées) mais dans lesquelles le niveau d'enregistrement était contrôlé. Nous avons utilisé l'Analyse Discriminante pour mettre en évidence des indices spectraux liés à la FDV, et montré que le nombre de nuances de FDV discernables était relativement important (une dizaine). On a également constaté la dépendance mutuelle de trois estimations (voyelle, locuteur et FDV), ce qui pose un problème de fond bien résolu par la perception humaine mais rarement pris en compte dans les approches classificatoires du traitement des données. La plus grande difficulté des études portant sur l'EV se trouve dans l'absence de bases de données étalonnées en termes de FDV. Le niveau sonore effectif produit par le locuteur est habituellement perdu dès la prise de son, ceci même dans les bd qui visent à prendre en compte la variabilité due à l'EV. Au mieux on considère trois ou quatre modes de voix, tels que voix "normale" ou "modale", voix faible, voix forte. Une étude de 1977 (Pearsons et al) a pourtant collecté des données calibrées, pour une centaine de locuteurs, dans le cadre de l'intelligibilité de la parole dans des lieux publics ou privés, ainsi qu'en chambre anéchoïque. Les données sous forme signal sont perdues; seul subsiste un ensemble d'environ 500 spectres acoustiques à long terme (LTAS) en 24 bande de 1/3 d'octave, chacun représentant une séquence de 10 à 15 secondes dans un mode de voix donné parmi les 5 requis. Ces données rudimentaires, réexaminées en fonction du niveau sonore produit, montrent une grande régularité dans l'association d'un Ltas et de la FDV qui lui est associée, avec une précision de l'ordre de 5 dB. On peut donc envisager d'utiliser ces données pour calibrer d'autres bd comportant des phrases complètes et garantissant une certaine constance des conditions d'enregistrement. C'est la première perspective de ce travail. La seconde est l'étude des indices spectro-temporels liés à la FDV. Les indices phonétiques tels que le VOT, le bruit de friction des occlusives, les formants, la balance spectrale, présentent des variations considérables d'une séquence à une autre. Il serait intéressant d'établir dans quelle mesure ils sont reliés à la FDV, tant pour les intégrer à une estimation plus précise de l'EV, que pour les utiliser dans des tâches telles que l'identification du locuteur, l'interprétation de ses intentions vis-à-vis de son interlocuteur ou la simplification des procédures d'apprentissage en reconnaissance automatique.

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Rapport scientifique

 

Le LIMSI en chiffres

7 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 

Paris-Saclay nouvelle fenêtre


Logo DataIA

 

© 2015 LIMSI CNRS