Ressources langagières

Membres : Gilles Adda, Martine Adda-Decker (LPP), Claude Barras, Eric Bilinski (P2I), Philippe Boula de Mareüil, Hervé Bredin, Jean-Luc Gauvain, Lori lamel, Joseph Mariani, Sophie Rosset (ILES), Ioana Vasilescu, Djegdjiga Amazouz

L'évaluation comparative est un élément moteur du traitement de la parole depuis plus de 30 ans. Les corpus sont au coeur de ces deux grands paradigmes. Alors que dans le passé, l'utilisation des grands corpus s'est limitée à quelques domaines et langues, la dernière décennie a connu une vraie expansion vers le multilinguisme et la multimodalité. Le développement de corpus et l'organisation d'évaluations sont cruciaux pour la communauté linguistique et posent à leur tour des problèmes scientifiques qui doivent être résolus, tels que les corpus à collecter et comment ils devraient être annotés, ainsi que des questions scientifiques sur la façon de récompenser leurs promoteurs et la façon d'assurer l'éthique dans le processus de collecte. Ce thème traite de l'aspect théorique et des problèmes pratiques concernant la collecte, l'annotation et la diffusion de grands corpus multilingues.

À la suite du projet Quaero, où 35 transcripteurs ont trancrit plus de 1.700 heures de parole (émissions radio-télévisées, séminaires,...) en 25 langues, nous nous orientons maintenant vers des corpus spécifiques, pour des problèmes spéci­fiques, et avec une finalité double, à la fois pour des fins linguistiques et pour développer des systèmes. Nous pouvons citer par exemple le développement de corpus français-algérien pour étudier le code-switching (projet ANR/Salsa) ou le développement d'un corpus en roumain pour étudier la tâche Diapix (collaboration LIMSI- Labex EFL). Un exemple marquant de la volonté de faire collaborer les technologies et les études linguistiques se trouve dans le développement de corpus en trois langues bantoues (mbochi, basaa, myene) contenant plus de 50 heures dans chacune des langues, chaque donnée originale étant répétée minutieusement et traduite oralement, dans le but de développer les outils d'aide à la documentation des langues non-écrites (projet ANR-DFG BULB).

La classification des erreurs, le diagnostic et la mesure de l'impact au moyen de tests perceptifs constituent des étapes importantes pour identifier les faiblesses des modèles des systèmes de transcription de pointe et préparer les géné­rations futures de systèmes de traitement du langage parlé (projet ANR/VERA). L'annotation des données multimédia volumineuses nécessite la mise en place d'infrastructures innovantes ; nous avons développé pour cela dans le cadre du projet CHISt-ERA/Camomile, une plateforme d'annotation collaborative, pour les données 3M (multilingues, multimédias, multimodales) qui a été utilisée dans le cadre d'évaluations internationales.

En parallèle de nos activités de production de corpus, des recherches plus générales sur les ressources linguistiques ont été menées en relation avec les réseaux européens FLaReNet et META-NET. Ils traitent de la compilation des ressources linguistiques mentionnées dans les communications présentées lors de conférences (LRE Map), de la comparaison du statut entre les langues (Matrices et tableaux linguistiques) et de la détection des lacunes pour certaines langues (Langues moins ressources), de l'identification unique d'une ressource linguistique et du calcul de son facteur d'impact.

Elle concerne également la dimension éthique de la production et de la distribution des ressources langagières dans le contexte d'un intérêt croissant au niveau international pour le partage des données et le Crowdsourcing, avec le déve­loppement en collaboration avec Aproged, Cap Digital, AFCP et ATALA une charte de bonne pratique « Éthique et Big Data ». Cette activité se poursuit par l'organisation de journées d'études, de blog, et d'un numéro spécial TAL 57(2) : TAL et éthique (Karën Fort, Gilles Adda et Kevin Bretonnel Cohen)

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Rapport scientifique

 

Le LIMSI en chiffres

7 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 

Paris-Saclay nouvelle fenêtre


Logo DataIA

 

© 2017 LIMSI CNRS