TAL : Représentations vectorielles et apprentissage automatique pour l’alignement d’entités textuelles et de concepts d’ontologie

Thèse d'Arnaud Ferré, équipe ILES, sous la direction de Pierre Zweigenbaum et Claire Nédellec.

Soutenance le vendredi 24 mai 2019 à 14:00 au LIMSI

Représentations vectorielles et apprentissage automatique pour l’alignement d’entités textuelles et de concepts d’ontologie : application à la biologie

 Jury

  • Nathalie Aussenac, Directrice de Recherche, CNRS (IRIT) – Rapporteuse
  • Emmanuel Morin, Professeur des Universités, Université de Nantes (LS2N) – Rapporteur
  • Alexandre Allauzen, Professeur des Universités, Université Paris-Sud (LIMSI) – Examinateur
  • Vincent Claveau, Chargé de Recherche, CNRS (IRISA) – Examinateur
  • Claire Nédellec, Directrice de Recherche, INRA (MaIAGE) – Directrice de thèse
  • Pierre Zweigenbaum, Directeur de Recherche, CNRS (LIMSI) – Co-Directeur de thèse

L'augmentation considérable de la quantité des données textuelles rend aujourd’hui difficile leur analyse sans l’assistance d’outils. Or, un texte rédigé en langue naturelle est une donnée non-structurée, c’est-à-dire qu’elle n’est pas interprétable par un programme informatique spécialisé, sans lequel les informations des textes restent largement sous-exploitées. Parmi les outils d’extraction automatique d’information, nous nous intéressons aux méthodes d’interprétation automatique de texte pour la tâche de normalisation d’entité qui consiste en la mise en correspondance automatique des mentions d’entités de textes avec des concepts d’un référentiel. Pour réaliser cette tâche, nous proposons une nouvelle approche par alignement de deux types de représentations vectorielles d’entités capturant une partie de leur sens : les plongements lexicaux pour les mentions textuelles et des “plongements ontologiques” pour les concepts, conçus spécifiquement pour ce travail. L’alignement entre les deux se fait par apprentissage supervisé. Les méthodes développées ont été évaluées avec un jeu de données de référence du domaine biologique et elles représentent aujourd’hui l’état de l’art pour ce jeu de données. Ces méthodes sont intégrées dans une suite logicielle de traitement automatique des langues et les codes sont partagés librement.

 

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Rapport scientifique

 

Le LIMSI en chiffres

7 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 

Paris-Saclay nouvelle fenêtre


Logo DataIA

 

© 2017 LIMSI CNRS