Actualités

Modèles exponentiels et contraintes sur les espaces de recherche en traduction automatique et pour le transfert cross-lingue

Thèse de Nicolas PECHEUX, doctorant de l'équipe TLP - 27 septembre 2016

Traduction automatique, TAL

La plupart des méthodes de traitement automatique des langues (TAL) peuvent être formalisées comme des problèmes de prédiction, dans lesquels on cherche à choisir automatiquement l'hypothèse la plus plausible parmi un très grand nombre de candidats. Malgré de nombreux travaux qui ont permis de mieux prendre en compte la structure de l'ensemble des hypothèses, la taille de l'espace de recherche est généralement trop grande pour permettre son exploration exhaustive. Dans ce travail, nous nous intéressons à l'importance du design de l'espace de recherche et étudions l'utilisation de contraintes pour en réduire la taille et la complexité. Nous nous appuyons sur l'étude de trois problèmes linguistiques — l'analyse morpho-syntaxique, le transfert cross-lingue et le problème du réordonnancement en traduction — pour mettre en lumière les risques, les avantages et les enjeux du choix de l'espace de recherche dans les problèmes de TAL.

Par exemple, lorsque l'on dispose d'informations a priori sur les sorties possibles d'un problème d'apprentissage structuré, il semble naturel de les inclure dans le processus de modélisation pour réduire l'espace de recherche et ainsi permettre une accélération des traitements lors de la phase d'apprentissage. Une étude de cas sur les modèles exponentiels pour l'analyse morpho-syntaxique montre paradoxalement que cela peut conduire à d'importantes dégradations des résultats, et cela même quand les contraintes associées sont pertinentes. Parallèlement, nous considérons l'utilisation de ce type de contraintes pour généraliser le problème de l'apprentissage supervisé au cas où l'on ne dispose que d'informations partielles et incomplètes lors de l'apprentissage, qui apparaît par exemple lors du transfert cross-lingue d'annotations. Nous étudions deux méthodes d'apprentissage faiblement supervisé, que nous formalisons dans le cadre de l'apprentissage ambigu, appliquées à l'analyse morpho-syntaxiques de langues peu dotées en ressources linguistiques.

Enfin, nous nous intéressons au design de l'espace de recherche en traduction automatique. Les divergences dans l'ordre des mots lors du processus de traduction posent un problème combinatoire difficile. En effet, il n'est pas possible de considérer l'ensemble factoriel de tous les réordonnancements possibles, et des contraintes sur les permutations s'avèrent nécessaires. Nous comparons différents jeux de contraintes et explorons l'importance de l'espace de réordonnancement dans les performances globales d'un système de traduction. Si un meilleur design permet d'obtenir de meilleurs résultats, nous montrons cependant que la marge d'amélioration se situe principalement dans l'évaluation des réordonnancements plutôt que dans la qualité de l'espace de recherche.

Jury

  • Mme. Isabelle Tellier, Professeure, Université Paris 3, Rapporteuse
  • M. Fabrice Lefèvre, Professeur, Université d'Avignon et des Pays de Vaucluse, Rapporteur
  • Mme. Anne Vilnat, Professeure, Université Paris-Saclay, Examinatrice
  • M. Massih-Reza Amini, Professeur, Examinateur
  • M. François Yvon, Professeur, Université Paris-Saclay, Directeur de thèse
  • M. Alexandre Allauzen, Maître de Conférence, Université Paris-Saclay, Co-encadrant de thèse

Publications

Articles

  1. Nicolas Pécheux, Alexandre Allauzen, Jan Niehues, François Yvon, Reordering Space Design in Statistical Machine Translation (2016) , doi : 10.1007/s10579-016-9353-8
  2. Nicolas Pécheux, Guillaume Wisniewski, François Yvon, Reassessing the value of resources for cross-lingual transfer of POS tagging models (2016) , doi : 10.1007/s10579-016-9362-7

Communications

  1. Nicolas Pécheux, Alexandre Allauzen, Thomas Lavergne, Guillaume Wisniewski, François Yvon, Oublier ce qu'on sait, pour mieux apprendre ce qu'on ne sait pas : une étude sur les contraintes de type dans les modèles CRF (2015)
  2. Guillaume Wisniewski, Nicolas Pécheux, François Yvon, Why Predicting Post-Edition is so Hard? Failure Analysis of LIMSI Submission to the APE Shared Task (2015)
  3. Nicolas Pécheux, Alexandre Allauzen, François Yvon, Rule-based reordering spaces in statistical machine translation (2014)
  4. Guillaume Wisniewski, Nicolas Pécheux, Souhir Gahbiche-Braham, François Yvon, Cross-Lingual Part-of-Speech Tagging through Ambiguous Learning (2014)
  5. Guillaume Wisniewski, Nicolas Pécheux, Elena Knyazeva, Alexandre Allauzen, François Yvon, Apprentissage partiellement supervisé d'un étiqueteur morpho-syntaxique par transfert cross-lingue (2014)
  6. Hervé Bredin, Anindya Roy, Nicolas Pécheux, Alexandre Allauzen, "Sheldon Speaking, Bonjour!": Leveraging Multilingual Tracks for (Weakly) Supervised Speaker Identification (2014)
  7. Guillaume Wisniewski, Nicolas Pécheux, Alexandre Allauzen, François Yvon, LIMSI Submission for WMT'14 QE Task (2014)

Workshops et ateliers

  1. Benjamin Marie, Alexandre Allauzen, Franck Burlot, Quoc Khanh Do, Julia Ive, Elena Knyazeva, Matthieu Labeau, Thomas Lavergne, Kevin Löser, Nicolas Pécheux, François Yvon, LIMSI@WMT15 : Translation Task (2015)
  2. Nicolas Pécheux, Li Gong, Quoc Khanh Do, Benjamin Marie, Yulia Ivanishcheva, Alexandre Allauzen, Thomas Lavergne, Jan Niehues, Aurélien Max, François Yvon, LIMSI @ WMT'14 Medical Translation Task (2014)
  3. Alexandre Allauzen, Nicolas Pécheux, Quoc Khanh Do, Marco Dinarelli, Thomas Lavergne, Aurélien Max, Hai Son Le, François Yvon, LIMSI @ WMT13 (2013)

 

LIMSI
Campus universitaire bât 508
Rue John von Neumann
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Le LIMSI en chiffres

10 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 Université Paris-Sud nouvelle fenêtre

 

Paris-Saclay nouvelle fenêtre