Formation

Stages

Nom de l'encadrant
Camille Guinaudeau
Contact
Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Titre
Utilisation du contexte pour l’identification du rôle des entités nommées dans les dialogues
Descriptif
Dans le cadre de ce stage, l’étiquetage des entités nommées consiste à leur associer un label traduisant leur rôle au sein d’un dialogue non spontané (dialogues de série télévisée, de film ou de pièce de théâtre). La différenciation entre les rôles « Locuteur », « Destinataire » ou « Objet » (personne mentionnée dans le dialogue sans toutefois y prendre part) peut, en effet, être utile pour la résolution de tâches telles que l’identification du locuteur (si A s’adresse à B, la probabilité que le locuteur suivant soit B est plus importante) ou la génération de dialogue.

Identifier le rôle d’une entité nommée en utilisant uniquement les dialogues est une tâche complexe notamment parce que la modalité visuelle est manquante. Or cette modalité visuelle porte de nombreuses informations concernant l’intention du locuteur (regard tourné vers la personne à qui l’on s’adresse), ou le nombre de personnes présentes pendant le dialogue, par exemple.

Afin de combler cette perte d’information, une des pistes envisagées consiste à utiliser des informations de contexte obtenues manuellement ou de façon automatique. Ces informations de contexte peuvent être issues d’IMBD, qui va fournir la liste des personnages apparaissant dans un épisode dans le cadre de l’analyse des dialogues de séries télévisés, ou une segmentation en scène calculée automatiquement à partir de frontières de plan. De la même manière, pour les textes de théâtre classique, le contexte peut correspondre aux didascalies ajoutées par l’auteur à l’intention des acteurs pour donner des indications d'action, de jeu ou de mise en scène ou au découpage en scènes de la pièce.

L’objectif de ce stage consiste donc à étudier l’impact de l’utilisation du contexte pour l’étiquetage du rôle des entités nommées dans les dialogues. Au cours de ce stage, l’étudiant devra travailler dans un premier temps à l’analyse des corpus annotés fournis pour dégager une méthodologie d’identification du rôle des entités nommées puis dans un deuxième temps sur l’évaluation de la méthode retenue sur différents types de données ou en utilisant différents types de contexte

Les données à disposition de l’étudiant seront de deux types : des sous-titres ou des transcriptions automatiques de séries télévisées et de films (c’est-à-dire des données potentiellement erronés) et des transcriptions manuelles de séries télévisées et des dialogues de pièces de théâtre classique. L’influence du contexte sur les performances de l’étiquetage des entités nommées pourra ainsi également être analysé en fonction du type et de la qualité des données étudiées.
Domaine
traitement du langage parlé, écrit et gestuel
Mots clés
  • reconnaissance de locuteur
  • Apprentissage
  • Traitement Automatique du Language Naturel Écrit
Niveau
M2
Groupe(s)
ILES, TLP
Date de début
Durée
5 mois

LIMSI
Campus universitaire bât 508
Rue John von Neumann
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Le LIMSI en chiffres

10 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 Université Paris-Sud nouvelle fenêtre

 

Paris-Saclay nouvelle fenêtre