Soutenance de thèse d'Aman BEHRE, sous la direction de Claude Barras et Camille GUINAUDEAU, le 28/10/21 au LISN, bâtiment 507 à 14:00
Jury
Claude BARRAS, Maître de conférences (HDR), Université Paris-Saclay GS Informatique et science du numérique,Directeur de thèse
Camille GUINAUDEAU, Maîtresse de conférences, Université Paris-Saclay Labratoire Interdisciplinaire des Sciences du Numérique (LISN), Co-encadrante de thèse
Anne VILNAT, Professeure, Université Paris-Saclay, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Examinatrice
Julien PINQUIER, Maître de conférences, IRIT-Université Toulouse III, Examinateur
Yannick ESTEVE, Professeur, Université d'Avignon - LIA, Rapporteur
Pascale SEBILLOT, Professeure, INSA Rennes, Rapportrice
Mots-clés
Fusion multimodale, Structure narrative, Lien entre scènes, Scènes remarquables, Segmentation en scènes
Résumé
À l’ère de l’explosion du contenu multimédia, il est nécessaire de proposer des méthodes automatiques permettant d’organiser les collections de documents multimédia. La structure narrative des collections peut aider à cet égard, en particulier dans les collections multimédia longues et continues, telles que les séries TV. Les séries TV actuelles sont composées de structures complexes impliquant plusieurs récits entrelacés au sein d’un même épisode, et ce jusqu’au dernier épisode de la série TV. Dans cette thèse nous nous concentrons sur l’extraction et la description de la structure narrative des séries TV en considérant la fusion des caractéristiques multi-modales et des éléments narratifs. La structure narrative des séries TV est constituée d’unités atomiques narratives, les scènes Par conséquent, travailler au niveau de la scène est la meilleure façon d’extraire et de comprendre la structure narrative globale. Dans cette thèse, nous avons proposé une nouvelle fa ̧ on d’extraire et de comprendre la structure narrative en reliant les scènes. Pour ce faire, nous avons étudié la segmentation des scènes en utilisant des caractéristiques extraites de modèles neuronaux qui prennent en compte les modalités visuelles et textuelles des se ́ries TV. Ensuite, nous avons propose ́ une nouvelle fac ̧on de relier les scènes par le biais d’un regroupement flou (fuzzy clustering), à différents niveaux de granularité. Le fuzzy clustering prend en compte les éléments narratifs des scènes pour créer les liens entre eux. Des liens inter et intra épisodes sont créés pour capturer la progression d’un récit tout au long de la série TV. Ensuite, les scènes les plus marquantes (MRS) sont détecte ́es, afin de mettre en évidence les points d’inflexion de la structure narrative à partir des scènes lie ́es. Des modèles neuronaux profonds et complexes sont étudiés pour la détection des MRS à partir des caractéristiques multimodales des scènes. Enfin, un outil de visualisation et d’évaluation est proposé pour afficher les structures narratives extraites et permettre une évaluation humaine.