Actualités

TLP-seminaires

30 janvier à 11h30

Reconnaissance acoustique individuelle chez un oiseau, le Butor étoilé

Le Butor étoilé est un héron discret vivant dans les roselières. Son statut de conservation actuel atteint un seuil critique en France. La Réserve nationale naturelle de l'estuaire de la Seine a vu la population de cet oiseau décliner depuis 2001, passant d'une vingtaine de mâles chanteurs à cinq en 2016. En 2017, ils m'ont contacté pour réaliser des prises de son des mâles (les femelles ne vocalisant pas) avec pour objectif d'individualiser par le chant les individus. Cette approche a déjà été faite auparavant par des équipes anglaises, avec des moyens techniques modestes en comparaisons à ceux d'aujourd'hui. Une opération similaire est en cours en Lorraine. En quinze jours d'immersion dans cette roselière séquanienne, j'ai pu enregistrer 170 chants en cinq localités. Parmi ces chants, 118 ont pu être utilisés pour des analyses. La difficulté majeure réside dans le fait que nous ne pouvons pas avoir d'information d'identification a priori afin de tester la validité des résultats. Deux approches ont été effectuées : une analyse quantitative sur les paramètres bioacoustiques temporels et fréquentiels ; une analyse qualitative basée sur un classement à vue des spectrogrammes par des témoins. Les deux approches apportent une même conclusion : ces 118 chants appartiennent à 3 individus. Toutefois, j'ai l'intuition que d'autres modes d'analyse seraient possibles pour individualiser des Oiseaux - voire des Amphibiens - à partir de leurs expressions vocales. Cette méthode d'étude est très attractive, pour au moins deux raisons : elle apporte des informations nouvelles sur les populations étudiées, dont les principaux sont le déplacement, la philopatrie, le cantonnement, le renouvellement et leurs corolaires ; elle est non-intrusive. En espérant cet échange constructif.

3 avril à 11h30

Exploring Fricatives Through Cepstral Coefficients and HMM-Defined Temporal Regions: Data From Three Languages

We used Hidden Markov Models (HMMs) to divide fricatives from three languages (Romanian, Russian, and Greek) into internally uniform regions with respect to their acoustic properties, expressed as the first six coefficients of the Bark cepstrum. These were then used to classify the fricatives by place of articulation, voicing, gender, and palatalization status. Our method yielded higher correct classification rates compared to previous studies employing different measures. Furthermore, we uncovered novel information regarding the relationship between phonetic and phonological contrasts in each of these languages. For Romanian, we found asymmetries in the realization of secondary palatalization at different places of articulation, deviating from typological, markedness-based predictions. In Russian, we examined a rare cross-linguistic contrast involving four sibilant fricatives and found that a process of neutralization, more strongly produced by males compared to females, may be in progress. Finally, our correct classification rates for front (labiodental and interdental) fricatives in Greek were above 90%, much higher than previously reported results with English front fricatives (66% in Jongman et al. 2000). Greek fricatives may be characterized by stronger cues compared to English due to their phonological status, as predicted by theories of adaptive dispersion or contrast enhancement.

23 janvier à 11h30

Black-box Optimization of Deep Neural Networks for Acoustic Modeling

Deep neural networks are now the state-of-the-art in acoustic modeling for automatic speech recognition. They allow obtaining robust and high accuracy acoustic models. However, these models have a lot of hyper-parameters. Hyper-parameters optimization is very tedious yet essential tasks to successfully train very deep neural networks. We proposed to optimize theses parameters automatically for different architectures such as long short term memory (LSTM), wide residual network combined with LSTM and highway network combined with LSTM that recently allowed for obtaining state-of-the-art results on various automatic speech recognition tasks. Experiments are conducted on a subset of the ESTER, a French corpus for automatic speech recognition. Automatic hyper-parameter optimization allows the exploitation of several architectures resulting in a large performance improvement, from 56% frame accuracy with the previous baseline (a multi layer perceptron implemented in Kaldi) to about 85.5% with LSTM-based architecture

Page 1 sur 2

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Rapport scientifique

 

Le LIMSI en chiffres

8 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 Université Paris-Sud nouvelle fenêtre

 

Paris-Saclay nouvelle fenêtre


© 2017 LIMSI CNRS