Séminaires TLP

3 avril à 11h30 - Laura SPINU, Assistant Professor, Kingsborough Community College, City University of New York

Exploring Fricatives Through Cepstral Coefficients and HMM-Defined Temporal Regions: Data From Three Languages

We used Hidden Markov Models (HMMs) to divide fricatives from three languages (Romanian, Russian, and Greek) into internally uniform regions with respect to their acoustic properties, expressed as the first six coefficients of the Bark cepstrum. These were then used to classify the fricatives by place of articulation, voicing, gender, and palatalization status. Our method yielded higher correct classification rates compared to previous studies employing different measures. Furthermore, we uncovered novel information regarding the relationship between phonetic and phonological contrasts in each of these languages. For Romanian, we found asymmetries in the realization of secondary palatalization at different places of articulation, deviating from typological, markedness-based predictions. In Russian, we examined a rare cross-linguistic contrast involving four sibilant fricatives and found that a process of neutralization, more strongly produced by males compared to females, may be in progress. Finally, our correct classification rates for front (labiodental and interdental) fricatives in Greek were above 90%, much higher than previously reported results with English front fricatives (66% in Jongman et al. 2000). Greek fricatives may be characterized by stronger cues compared to English due to their phonological status, as predicted by theories of adaptive dispersion or contrast enhancement.

 

30 janvier à 11h30 - Olivier SWIFT, écologue-bioacousticien de l'association Philofauna

Reconnaissance acoustique individuelle chez un oiseau, le Butor étoilé

Le Butor étoilé est un héron discret vivant dans les roselières. Son statut de conservation actuel atteint un seuil critique en France. La Réserve nationale naturelle de l'estuaire de la Seine a vu la population de cet oiseau décliner depuis 2001, passant d'une vingtaine de mâles chanteurs à cinq en 2016. En 2017, ils m'ont contacté pour réaliser des prises de son des mâles (les femelles ne vocalisant pas) avec pour objectif d'individualiser par le chant les individus. Cette approche a déjà été faite auparavant par des équipes anglaises, avec des moyens techniques modestes en comparaisons à ceux d'aujourd'hui. Une opération similaire est en cours en Lorraine. En quinze jours d'immersion dans cette roselière séquanienne, j'ai pu enregistrer 170 chants en cinq localités. Parmi ces chants, 118 ont pu être utilisés pour des analyses. La difficulté majeure réside dans le fait que nous ne pouvons pas avoir d'information d'identification a priori afin de tester la validité des résultats. Deux approches ont été effectuées : une analyse quantitative sur les paramètres bioacoustiques temporels et fréquentiels ; une analyse qualitative basée sur un classement à vue des spectrogrammes par des témoins. Les deux approches apportent une même conclusion : ces 118 chants appartiennent à 3 individus. Toutefois, j'ai l'intuition que d'autres modes d'analyse seraient possibles pour individualiser des Oiseaux - voire des Amphibiens - à partir de leurs expressions vocales. Cette méthode d'étude est très attractive, pour au moins deux raisons : elle apporte des informations nouvelles sur les populations étudiées, dont les principaux sont le déplacement, la philopatrie, le cantonnement, le renouvellement et leurs corolaires ; elle est non-intrusive. En espérant cet échange constructif.

23 janvier à 11h30 : Aman BEHRE

Black-box Optimization of Deep Neural Networks for Acoustic Modeling

Deep neural networks are now the state-of-the-art in acoustic modeling for automatic speech recognition. They allow obtaining robust and high accuracy acoustic models. However, these models have a lot of hyper-parameters. Hyper-parameters optimization is very tedious yet essential tasks to successfully train very deep neural networks. We proposed to optimize theses parameters automatically for different architectures such as long short term memory (LSTM), wide residual network combined with LSTM and highway network combined with LSTM that recently allowed for obtaining state-of-the-art results on various automatic speech recognition tasks. Experiments are conducted on a subset of the ESTER, a French corpus for automatic speech recognition. Automatic hyper-parameter optimization allows the exploitation of several architectures resulting in a large performance improvement, from 56% frame accuracy with the previous baseline (a multi layer perceptron implemented in Kaldi) to about 85.5% with LSTM-based architecture

9 janvier à 11h30 : Margaret E. L. RENWICK / University of Georgia & Oxford University

Phonological intuitions vs. speech production in Italian and Catalan
Some concept of contrast is central to all theories of phonology. This paper gathers findings from the phonology and phonetics of vowels in two Romance languages to argue that contrast is more complex than suggested by the binary distinction between phonemes and allophones. In parallel studies of Italian and Catalan we examine contrasts among mid vowels, hypothesizing that phonological intuitions of mid vowel height vary across speakers, and that speakers’ judgments may not always match their own pronunciation. In Italian, most speakers have clear phonetic distinctions between high and low mid vowels; however, vowels’ lexical distribution can vary. In Catalan, variation is found in the contrasts’ phonetic implementation: some speakers’ mid vowels are highly distinct, but others’ overlap; a large-scale survey of speaker judgments confirms that a core of Catalan words are variable in height. In both languages phonological awareness is generally high, but we observe mismatches between production and speaker judgment. Experimental results thus show that some Romance vowel contrasts are indeed weak, and variably implemented both within and across speakers.

 

5 décembre 2017 à 11h30 : Ralph Rose (Univ. Waseda)

Crosslinguistic study of pauses in speech: L1 influence and L2 perception

The influence of first language (L1) speech patterns on second language (L2) speech production is well-known in studies of, for example, syntax, semantics, and phonology/phonetics. Much less studied is the influence of temporal features such as pausing patterns; for example, speakers’ use of silent pauses and filled pauses (e.g., ‘uh’/’um’ in English). But recent work is showing that L1 pause patterns influence L2 speech in ways that is not universal. That is, the pausing patterns exhibited by L2 speakers vary somewhat according to the L1-L2 pairing. This talk presents evidence in support of this claim from both a crosslinguistic speech corpus as well as a perceptual experiment done with different L1 speakers. The talk will wrap up with ideas for raising L2 learners’ awareness of their pausing patterns.

 

28 novembre 2017 à 11h30 : Matthieu Labeau (doctorant TLP)

Character and Subword-Based word Representation for Neural Language Modelling prediction

Most of neural language models use different kinds of embeddings for word prediction. While word embeddings can be associated to each word in the vocabulary or derived from characters as well as factored morphological decomposition, these word representations are mainly used to parametrize the input, i.e. the context of prediction. This work investigates the effect of using subword units (character and factored morphological decomposition) to build output representations for neural language modeling. We present a case study on Czech, a morphologically-rich language, experimenting with different input and output representations. Our experiments show that augmenting the output word representations with character-based embeddings can significantly improve the performance of the model. This work was published at SCLeM (Workshop at EMNLP) 2017.

14 novembre à 11h30 : Natalia TOMASHENKO (Laboratoire d’Informatique de l’Université du Maine, Le Mans Université)

Speaker adaptation of DNN acoustic models using Gaussian mixture model framework in ASR systems

Adaptation is an efficient way to reduce mismatches between models and data from a particular speaker or channel in automatic speech recognition (ASR) systems. In this work we present a novel speaker adaptation method for deep neural network (DNN) acoustic models. The idea of the proposed approach is based on using so-called GMM-derived features as input to a DNN. This technique of processing features for DNNs makes it possible to use GMM-HMM adaptation algorithms in the neural network framework. Adaptation to a new speaker can be performed by adapting an auxiliary GMM-HMM model, used in calculation of GMM-derived features, and can be regarded as adaptation in the feature space for a DNN system. The proposed approach is explored in the framework of various state-of-the art ASR systems and is shown to be effective in comparison with other speaker adaptation techniques and complementary to them.

 

3 octobre à 11h30 : Jean-Sylvain LIÉNARD (LIMSI, DR Emerite)

Rôle et estimation de l'effort vocal

L'effort vocal (EV) est à la fois un facteur de variabilité de la parole et une grandeur acoustique utilisée par les interlocuteurs pour échanger diverses informations dans une situation de communication donnée. L'EV, notion qualitative issue de la phoniatrie, peut être représenté par une mesure d'intensité objective, en décibels, appelée force de voix (FDV). Diverses études ont montré que la variation de l'EV entraînait des variations notables dans toutes les dimensions et sous tous les aspects du signal de parole. Du point de vue perceptif ces variations portent des informations sur l'intention du locuteur à l'égard de son auditeur (choix d'un auditeur), ainsi que sur les conditions de l'échange oral (distance estimée, bruit, réverbération). Du point de vue du traitement automatique (parole, locuteur, diarization) la FDV est actuellement un grand facteur d'incertitude. Avec Claude Barras, dans le cadre de deux Actions Incitatives du LIMSI, nous avons mené plusieurs études sur l'estimation de la FDV à partir du spectre, à partir de deux bases de données limitées (voyelles isolées) mais dans lesquelles le niveau d'enregistrement était contrôlé. Nous avons utilisé l'Analyse Discriminante pour mettre en évidence des indices spectraux liés à la FDV, et montré que le nombre de nuances de FDV discernables était relativement important (une dizaine). On a également constaté la dépendance mutuelle de trois estimations (voyelle, locuteur et FDV), ce qui pose un problème de fond bien résolu par la perception humaine mais rarement pris en compte dans les approches classificatoires du traitement des données. La plus grande difficulté des études portant sur l'EV se trouve dans l'absence de bases de données étalonnées en termes de FDV. Le niveau sonore effectif produit par le locuteur est habituellement perdu dès la prise de son, ceci même dans les bd qui visent à prendre en compte la variabilité due à l'EV. Au mieux on considère trois ou quatre modes de voix, tels que voix "normale" ou "modale", voix faible, voix forte. Une étude de 1977 (Pearsons et al) a pourtant collecté des données calibrées, pour une centaine de locuteurs, dans le cadre de l'intelligibilité de la parole dans des lieux publics ou privés, ainsi qu'en chambre anéchoïque. Les données sous forme signal sont perdues; seul subsiste un ensemble d'environ 500 spectres acoustiques à long terme (LTAS) en 24 bande de 1/3 d'octave, chacun représentant une séquence de 10 à 15 secondes dans un mode de voix donné parmi les 5 requis. Ces données rudimentaires, réexaminées en fonction du niveau sonore produit, montrent une grande régularité dans l'association d'un Ltas et de la FDV qui lui est associée, avec une précision de l'ordre de 5 dB. On peut donc envisager d'utiliser ces données pour calibrer d'autres bd comportant des phrases complètes et garantissant une certaine constance des conditions d'enregistrement. C'est la première perspective de ce travail. La seconde est l'étude des indices spectro-temporels liés à la FDV. Les indices phonétiques tels que le VOT, le bruit de friction des occlusives, les formants, la balance spectrale, présentent des variations considérables d'une séquence à une autre. Il serait intéressant d'établir dans quelle mesure ils sont reliés à la FDV, tant pour les intégrer à une estimation plus précise de l'EV, que pour les utiliser dans des tâches telles que l'identification du locuteur, l'interprétation de ses intentions vis-à-vis de son interlocuteur ou la simplification des procédures d'apprentissage en reconnaissance automatique.

 

19 septembre : Marianna APIDIANAKI (LIMSI, CR)

Redefining senses for better paraphrase substitution in context

The role of senses in NLP has been questioned due to the high performance of vector space models in semantic tasks. These models deliver state-of-the-art performance without explicitly accounting for senses which have even been shown to be harmful for some tasks. In this talk, I will show how sense representations tailored to the task can improve the results of vector-based lexical substitution models. I will discuss two aspects related to paraphrase substitution, namely their clusterability into senses and their substitutability in context. Finally, I will present preliminary results on core sense detection through a multi-view approach to paraphrase semantic analysis.