Étapes vers un système neuronal de bout en bout pour la tâche de segmentation et de regroupement en locuteurs

Thèse de Ruiqing YIN, sous la direction de Claude BARRAS et Hervé BREDIN. Soutenance le 26 septembre 2019 à 14:00

Jury

Anne Vilnat, Professeure, Université Paris Sud -- Examinatrice
Sylvain Meignier, Professeur, Le Mans Université -- Rapporteur
Najim Dehak, Assistant Professor, Johns Hopkins University -- Rapporteur
Jean-François Bonastre, Professeur, Université d’Avignon -- Examinateur
Ricard Marxer, Maître de conférences, Université́ de Toulon -- Examinateur
Claude Barras, Maître de conférences, Université Paris Sud -- Directeur de thèse
Hervé Bredin, Chargé de Recherche CNRS, LIMSI -- Co-encadrant de thèse

Dans cette thèse, nous proposons de traiter le problème de segmentation et regroupement en locuteurs à l’aide d’approches neuronales.
Nous formulons d’abord le problème de la segmentation initiale (détection de l’activité vocale et des changements entre locuteurs) et de la re-segmentation finale sous la forme d’un ensemble de problèmes d’étiquetage de séquence, puis nous les résolvons avec des réseaux neuronaux récurrents de type Bi-LSTM (Bidirectional Long Short-Term Memory).

Au stade du regroupement des régions de parole, nous proposons d’utiliser l'algorithme de propagation d'affinité à partir de plongements neuronaux de ces tours de parole dans l'espace vectoriel des locuteurs.
Des expériences sur un jeu de données télévisées montrent que le regroupement par propagation d'affinité est plus approprié que le regroupement hiérarchique agglomératif lorsqu'il est appliquée à des plongements neuronaux de locuteurs. La segmentation basée sur les réseaux récurrents et la propagation d'affinité sont également combinées et optimisées conjointement pour former une chaîne de regroupement en locuteurs. Comparé à un système dont les modules sont optimisés indépendamment, la nouvelle chaîne de traitements apporte une amélioration significative.
De plus, nous proposons d’améliorer l'estimation de la matrice de similarité par des réseaux neuronaux récurrents, puis d’appliquer un partitionnement spectral à partir de cette matrice de similarité améliorée. Le système proposé atteint des performances à l'état de l'art sur la base de données de conversation téléphonique CALLHOME.

Enfin, nous formulons le regroupement des tours de parole en mode séquentiel sous la forme d'une tâche supervisée d’étiquetage de séquence et abordons ce problème avec des réseaux récurrents empilés. Pour mieux comprendre le comportement du système, une analyse basée sur une architecture de codeur-décodeur est proposée. Sur des exemples synthétiques, nos systèmes apportent une amélioration significative par rapport aux méthodes de regroupement traditionnelles.

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Rapport scientifique

 

Le LIMSI en chiffres

7 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 

Paris-Saclay nouvelle fenêtre


Logo DataIA

 

© 2017 LIMSI CNRS