Formation

Stages

Nom de l'encadrant
Sophie Rosset
Contact
Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Titre
Comparaison de fonctions objectif pour l’apprentissage de représentation : application à la vérification du locuteur et au calcul de similarité sémantique textuelle
Descriptif
Pour candidater, envoyer lettre de motivation, CV et dernières notes à :
Sahar Ghannay (Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.), Sophie Rosset (Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.), Hervé Bredin (Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.)

Sujet

Le rôle de la fonction objectif dans l’apprentissage neuronal est de fournir une mesure de la performance du réseau de neurones (i.e. sa capacité à répondre correctement à une tâche précise). Cette mesure, lorsqu’elle est dérivable, permet alors de mettre à jour le réseau de neurones par rétro-propagation du gradient de telle sorte que sa performance soit améliorée. Parmi ces fonctions objectif, on peut par exemple citer la “contrastive loss” [HCL06], la “triplet loss” [SKP15], ou encore la “center loss” [WZLQ16]. L’objectif de ce stage est de comparer différentes fonctions objectif permettant l’apprentissage des représentations neuronales adaptées à des tâches applicatives telles que la vérification du locuteur et la similarité sémantique textuelle. La plupart de ces méthodes ont été initialement proposées dans le domaine de la vision par ordinateur pour la reconnaissance d’image (et de visage en particulier) et certaines ont été appliquées récemment à tâche de vérification du locuteur [Bre17]. Cependant, elles n’ont pas encore été utilisées pour la tâche de similarité sémantique textuelle.
Description des tâches

Implémentation des différentes fonctions objectif : Après une étape d’étude de la littérature sur le sujet, la première tâche consiste à implémenter les fonctions objectif les plus prometteuses en les testant sur des exemples jouet bien maîtrisés (tels que la base MNIST de reconnaissance de chiffre manuscrit, par exemple).
Application à la vérification du locuteur : La tâche de vérification du locuteur consiste à déterminer si deux signaux audio proviennent ou non de l’enregistrement du même locuteur. On utilisera la base de données VoxCeleb [CNZ18, NCZ17] pour mener ces expériences. Elle contient plus d’un million d’enregistrements correspondant à plus de 6000 locuteurs, et constitue de fait le plus grand corpus librement disponible pour l’identification et la vérification du locuteur.
Application au calcul de similarité sémantique textuelle : La tâche de similarité sémantique textuelle (SST) est motivée par le fait que la modélisation de la similarité sémantique des phrases est un problème fondamental en compréhension de la langue, pertinent pour de nombreuses applications, notamment la traduction automatique, la recherche de réponses à des questions précises (ou questions-réponses), le dialogue dialogue, etc. Cette tâche consiste à évaluer dans quelle mesure deux phrases sont sémantiquement équivalentes. Plusieurs approches ont étés proposées [CDA + 17], qui sont fondées généralement soit sur les méthodes classiques en traitement automatique des langues (TAL), soit sur des méthodes d’apprentissage profond. La première approche s’appuie sur l’utilisation d’un classifieur enrichi par différents types de descripteurs : sémantiques, syntaxiques, etc. La deuxième est fondée sur l’exploitation des représentations de phrases et des architectures neuronales. Dans le cadre des campagnes d’évaluation SemEval, la tâche de SST a été proposée. Dans ce cadre, la tâche consiste pour le système de SST à attribuer un score de similarité à chaque paire de phrase sur une échelle de 0 (les deux phrases sont complètement différentes) à 5 (les deux phrases sont complè tement identiques)… Notre objectif dans ce stage est de pouvoir étudier les différentes fonctions objectif sur la tâche SST et de comparer nos résultats aux résultats obtenus par les différents systèmes ayant participé à la tâche 5 (en anglais) de la campagne d’évaluation SemEval 2017. Ce système fait la combinaison des approches de TAL et d’apprentissage profond.

Références

[Bre17] Hervé Bredin. Tristounet : triplet loss for speaker turn embedding. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5430–5434. IEEE, 2017.

[CDA + 17] Daniel Cer, Mona Diab, Eneko Agirre, Inigo Lopez-Gazpio, and Lucia Specia. Semeval-2017 task 1 : Semantic textual similarity-multilingual and cross-lingual focused evaluation. arXiv preprint arXiv :1708.00055, 2017.

[CNZ18] Joon Son Chung, Arsha Nagr ni, and Andrew Zisserman. Voxceleb2 : Deep speaker recognition. arXiv preprint arXiv :1806.05622, 2018.

[HCL06] Raia Hadsell, Sumit Chopra, and Yann LeCun. Dimensionality reduction by learning an invariant mapping. In CVPR 2006, pages 1735–1742. IEEE, 2006.

[NCZ17] Arsha Nagrani, Joon Son Chung, and Andrew Zisserman. Voxceleb : a large-scale speaker identification dataset. arXiv preprint arXiv :1706.08612, 2017.

[SKP15] Florian Schroff, Dmitry Kalenichenko, and James Philbin. Facenet : A unified embedding for face recognition and clustering. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 815–823, 2015.

[WZLQ16] Yandong Wen, Kaipeng Zhang, Zhifeng Li, and Yu Qiao. A discriminative feature learning approach for deep face recognition. In European Conference on Computer Vision, pages 499–515. Springer, 2016.
Domaine
traitement du langage parlé, écrit et gestuel
Mots clés
  • reconnaissance de locuteur
  • Apprentissage
  • Traitement Automatique du Language Naturel Écrit
Niveau
M2
Groupe(s)
ILES, TLP
Date de début
Durée
5 mois

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Rapport scientifique

 

Le LIMSI en chiffres

8 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 Université Paris-Sud nouvelle fenêtre

 

Paris-Saclay nouvelle fenêtre