Méthodes d’acquisition terminologique en arabe : Application au domaine médical

Soutenance de la thèse de Wafa NEIFAR le 18 mars 2019 à 14:00 au LIMSI.

Jury

  • Béatrice DAILLE - Professeur, Université de Nantes (LINA) - Rapporteur
  • Frédéric BECHET - Professeur, Aix Marseille Université (LIS) - Rapporteur
  • Nadia ESSOUSSI - Professeur, Université de Tunis (LARODEC) - Examinateur
  • Olivier FERRET - Ingénieur-Chercheur HDR, CEA-LIST (LVIC) - Examinateur
  • Pierre ZWEIGENBAUM - Directeur de recherche, CNRS (LIMSI) - Directeur de thèse
  • Lamia HADRICH BELGUITH - Professeur, Université de Sfax (MIRACL) - Directeur de thèse
  • Thierry HAMON - Maître de conférences, Université Paris-13 (LIMSI-CNRS) - Co-encadrant
  • Mariem ELLOUZE KHEMAKHEM - Maître assistant, Université de Sfax (MIRACL) - Co-encadrant

Résumé

L’objectif de cette thèse est de lever les verrous que constituent le manque de disponibilité de ressources ou d’outils TAL pour la langue arabe dans les domaines de spécialité en proposant des méthodes permettant l’extraction de termes à partir de textes en arabe standard moderne. Dans ce contexte, nous avons d’abord construit un corpus parallèle anglais-arabe dans un domaine de spécialité. Il s’agit d’un ensemble de textes médicaux produits par la bibliothèque nationale de médecine américaine (NLM). Par la suite, nous avons proposé des méthodes d’acquisition terminologique, permettant d’extraire des termes ou d’acquérir des relations entre ces termes, pour la langue arabe en se basant sur : i) adaptation d’un extracteur terminologique existant pour la langue française ou anglaise, ii) l’exploitation de la translittération des termes anglais en caractères arabes et iii) l’application de la la notion de transfert translingue. Appliqué au niveau terminologique, le transfert consiste à mettre en œuvre un processus d’extraction de termes ou d’acquisition de relations entre termes sur des textes d’une langue source (ici, le français ou l’anglais) puis à transférer les informations extraites sur des textes d’une langue cible (ici, l’arabe standard moderne) pour ainsi identifier le même type d’informations terminologiques. Nous avons évalué les listes de termes monolingues et bilingues obtenues lors des différentes expériences que nous avons réalisées, suivant une méthode transparente, directe et semi-automatique : les termes candidats extraits sont confrontés à une terminologie de référence avant d’ être vérifiés manuellement. Cette évaluation suit un protocole que nous avons proposé.

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Rapport scientifique

 

Le LIMSI en chiffres

7 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 

Paris-Saclay nouvelle fenêtre


Logo DataIA

 

© 2015 LIMSI CNRS