Corpus et représentations

P. Paroubek , C. Grouin, M. Asadullah, A. Fraisse, M. Delaborde, A. Braffort, M. Filhol, T. Hamon, A. Max, V. Moriceau, A. Névéol, X. Tannier, A. Vilnat, P. Zweigenbaum

Le thème Corpus et représentations concerne l'étude des événements linguistiques tels qu'ils se manifestent dans les systèmes de représentation graphiques et signés utilisés par les humains pour communiquer. Dans nos travaux de recherche, nous explorons des corpus, c'est-à-dire des collections de documents, créés selon une hypothèse de travail, ayant des origines diverses : transcription de parole, livres, articles, journaux, rapports, pages web, blogs, microblogs, vidéos de langue des signes etc.
Définir la représentation visée pour une tâche de Traitement automatique des langues donnée (par exemple étiquetage morphosyntaxique, analyse syntaxique, reconnaissance d'entités nommées, fouille d'opinion...) est une étape fondamentale dans l'étude de la tâche et de ses fondations linguistiques. Créer des corpus annotés selon cette représentation fournit un matériau indispensable pour le développement, l'entraînement ou l'évaluation de systèmes, et permet de définit des campagnes d'évaluation, qui jouent désormais un rôle clé dans la définition de directions de recherche au niveau national et international.
Le groupe ILES a une grande expérience dans la création de corpus annotés et l'organisation de campagnes d'évaluation fondées sur ces corpus. Notre expertise dans ce domaine nous permet de collaborer avec de nombreux partenaires académiques et industriels dans le cadre de campagnes d'évaluation nationales et internationales ainsi que dans le contexte des projets collaboratifs des pôles de compétitivité CAP-Digital et SYSTEM@TIC (FUI), de l'ANR, du FSN (AAP Big Data), de l'ERA-net européen CHIST-ERA etc.; au besoin merci de vous reporter à la liste des projets.

Pour plus d'informations merci de suivre les liens suivants (à venir) :

  • l'annotation de corpus,
  • les corpus pour l'apprentissage automatique,
  • les corpus, leurs représentations, l'évaluation et les mesures,
  • les corpus de langue des signes, merci de vous reporter à la description du thème Langue des Signes.

LIMSI
Campus universitaire bât 508
Rue John von Neumann
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Le LIMSI en chiffres

10 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 Université Paris-Sud nouvelle fenêtre

 

Paris-Saclay nouvelle fenêtre