Induction non-supervisée de schémas d'événements à partir de contenus journalistiques

Thèse de Swen RIBEIRO, sous la direction de Xavier TANNIER (LIMICS) et Olivier FERRET (CEA-LIST) Soutenance le 10 mars à 14:00 au LIMSI

Jury

- Antoine Doucet, Professeur, Université de la Rochelle, Rapporteur
- Philippe Langlais, Professeur, Université de Montréal, Rapporteur
- Kata Gábor, Maître de conférences, INALCO, Examinatrice
- Karine Zeitouni, Professeur, Université de Versailles St Quentin en Yvelines, Examinatrice

Résumé

L'événement est un concept central dans plusieurs tâches du Traitement Automatique des Langues en dépit de l'absence d'une définition unifiée de ce que recouvre cette notion. Le traitement des événements s'est structuré initialement sous l'égide des campagnes d'évaluation MUC (Message Understanding Conference), qui ont formalisé les événements sous la forme de structures appelées schémas (templates). Un schéma renvoie dans ce contexte à un type d’événements (par exemple un séisme) et rassemble un ensemble d'arguments (slots), chacun représentant un élément caractéristique de l'événement décrit (par exemple l'épicentre d'un séisme). De tels schémas peuvent être définis manuellement si l’on se restreint à quelques types d’événements mais à plus grande échelle, une telle définition n’est guère envisageable du fait du nombre très important de types d’événements possibles.En parallèle de ces travaux, la quantité de données produites par les individus et les organisations a crû de manière exponentielle,ouvrant des perspectives applicatives inédites. Cette croissance a notamment favorisé l'essor d'un nouveau paradigme journalistique appelé journalisme de données (data-journalism). Le travail réalisé se propose d'induire, à partir d'un grand volume de textes journalistiques et sans supervision, des représentations synthétiques d'événements d’intérêt journalistique comparables aux schémas des campagnes MUC avec l'objectif de faciliter l'exploitation de grandes masses de données par des journalistes des données. Pour ce faire, nous suivons une approche ascendante divisée en trois grandes étapes. Dans la première étape, nous regroupons les nombreuses mentions textuelles relatant la réalisation d'un même événement, identifiée dans le temps et l'espace et appelée instance. La deuxième étape vise à s'abstraire des caractéristiques spatio-temporelles de chaque instance pour les grouper en grands types d'événements. Enfin, la dernière étape de cette contribution vise à extraire les éléments caractéristiques de chaque type d'événements induit afin d'en proposer une représentation synthétique assimilable à un schéma d'événement.

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Rapport scientifique

 

Le LIMSI en chiffres

7 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 

Paris-Saclay nouvelle fenêtre


Logo DataIA

 

© 2015 LIMSI CNRS