Actualités

Extraction d'information à partir d'articles scientifiques appliquée à la prédiction de régulations biologiques impliquées dans le développement de la graine chez A. Thaliana

Thèse de Dialekti Valsamou, équipe ILES, Mardi 17 janvier à 10h, au Limsi, salle de conférence

Sous la direction de Pierre Zweigenbaum (LIMSI, CNRS) et Claire Nédellec (MaIAGE, INRA).

Résumé

Même si l’information est abondante dans le monde, l’information structurée, prête à être utilisée est rare. Ce travail propose l’Extraction d’Information (EI) comme une approche efficace pour la production de l’information structurée, utilisable sur la biologie, en présentant une tâche complète d’EI sur un organisme modèle, Arabidopsis thaliana. Un système d’EI se charge d’extraire les parties de texte les plus significatives et d’identifier leurs relations sémantiques. En collaboration avec des experts biologistes sur la plante A. Thaliana un modèle de connaissance a été conçu. Son objectif est de formaliser la connaissance nécessaire pour bien décrire le domaine du développement de la graine. Ce modèle contient toutes les entités et relations les connectant qui sont essentielles et peut être directement utilisé par des algorithmes. En parallèle ce modèle a été testé et appliqué sur un ensemble d’articles scientifiques du domaine, le corpus nécessaire pour l’entraînement de l’apprentissage automatique. Les experts ont annoté le texte en utilisant les entités et relations du modèle. Le modèle et le corpus annoté sont les premiers proposés pour le développement de la graine, et parmi les rares pour A. Thaliana, malgré son importance biologique. Ce modèle réconcilie les besoins d’avoir un modèle assez complexe pour bien décrire le domaine, et d’avoir assez de généralité pour pouvoir utiliser des méthodes d’apprentissage automatique. Une approche d’extraction de relations (AlvisRE) a également été élaborée et développée. Une fois les entités reconnues, l’extracteur de relations cherche à détecter les cas où le texte mentionne une relation entre elles, et à identifier précisément de quel type de relation du modèle il s’agit. L’approche AlvisRE est basée sur la similarité textuelle et utilise à la fois des informations lexicales, syntaxiques et sémantiques. Dans les expériences réalisées, AlvisRE donne des résultats qui sont équivalents et parfois supérieurs à l’état de l’art. En plus, AlvisRE a l’avantage de la modularité et de l'adaptabilité en utilisant des informations sémantiques produites automatiquement. Cette dernière caractéristique permet d’attendre des performances équivalentes dans d’autres domaines.

Jury

  • Isabelle Tellier, Université Sorbonne Nouvelle (rapporteur)
  • Pascale Sébillot, IRISA / INSA de Rennes (rapporteur)
  • Bertrand Dubreucq, Institut Jean-Pierre Bourgin (IJPB), INRA
  • Jean-Philippe Vert, Centre de BioInformatique, Mines ParisTech
  • Pierre Zweigenbaum, LIMSI, CNRS (directeur)
  • Claire Nédellec, MaIAGE, INRA (co-directeur)

LIMSI
Campus universitaire bât 508
Rue John von Neumann
F - 91405 Orsay cedex
Tél +33 (0) 1 69 85 80 80
Email

RAPPORTS SCIENTIFIQUES

Le LIMSI en chiffres

10 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 Université Paris-Sud nouvelle fenêtre

 

Paris-Saclay nouvelle fenêtre