Actualités

Apprentissage d'analyseurs syntaxiques pour les langues peu dotées

Thèse de Lauriane Aufrant, équipe TLP,  soutenance le 6 avril 2018 à 14h au Limsi

Titre complet :

Apprentissage d'analyseurs syntaxiques pour les langues peu dotées : amélioration du transfert cross-lingue grâce à des connaissances monolingues

Résumé :

Le récent essor des algorithmes d'apprentissage automatique a rendu les méthodes de Traitement Automatique des Langues d'autant plus sensibles à leur facteur le plus limitant : la qualité des systèmes repose entièrement sur la disponibilité de grandes quantités de données, ce qui n'est pourtant le cas que d'une minorité parmi les 7000 langues existant au monde. La stratégie dite du transfert cross-lingue permet de contourner cette limitation : une langue peu dotée en ressources peut être traitée en exploitant les ressources disponibles dans une autre langue. Les progrès accomplis sur ce plan se limitent néanmoins à des scénarios idéalisés, avec des ressources cross-lingues prédéfinies et de bonne qualité, de sorte que le transfert reste inapplicable aux cas réels de langues peu dotées, qui n'ont pas ces garanties. Avec l'analyse syntaxique comme cadre applicatif, cette thèse vise donc à combiner une multitude de ressources cross-lingues variées, de la manière la plus fine possible.

Abstract:

As a result of the recent blossoming of Machine Learning techniques, the Natural Language Processing field faces an increasingly thorny bottleneck: the most efficient algorithms entirely rely on the availability of large training data. These technological advances remain consequently unavailable for the 7,000 languages in the world, out of which most are low-resourced. One way to bypass this limitation is the cross-lingual transfer strategy, whereby resources available in another language are leveraged to help building accurate systems in the desired language. However, despite promising results in research settings, the standard transfer techniques lack the flexibility regarding cross-lingual resources needed to be fully usable in real-world scenarios: exploiting very sparse resources, or assorted arrays of resources. This thesis focuses on syntactic analysis to design a flexible transfer framework, combining these various cross-lingual resources as precisely as possible.

Jury 

Benoit Crabbé (rapporteur) -- Université Paris 7
    Anders Søgaard (rapporteur) -- University of Copenhagen
    Xavier Carreras (examinateur) -- dMetrics
    Pierre Zweigenbaum (examinateur) -- LIMSI, CNRS
    Sandrine Courcinous (invitée) -- Direction générale de l'armement
    François Yvon (directeur de thèse) -- Université Paris-Sud, Université Paris-Saclay
    Guillaume Wisniewski (co-encadrant de thèse) -- Université Paris-Sud, Université Paris-Saclay

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Le LIMSI en chiffres

8 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 Université Paris-Sud nouvelle fenêtre

 

Paris-Saclay nouvelle fenêtre