Actualités

Exploitation d'informations riches pour guider la traduction automatique statistique

Thèse de Benjamin Marie, le 25 mars 2016 à 14h, au LIMSI.

 S'il est indéniable que de nos jours la traduction automatique (TA) facilite la communication entre langues, et plus encore depuis les récents progrès des systèmes de TA statistiques, ses résultats sont encore loin du niveau de qualité des traductions obtenues avec des traducteurs humains. Ce constat résulte en partie du mode de fonctionnement d'un système de TA statistique, très contraint sur la nature des modèles qu'il peut utiliser pour construire et évaluer de nombreuses hypothèses de traduction partielles avant de parvenir à une hypothèse de traduction complète. Il existe cependant des types de modèles, que nous qualifions de « complexes », qui sont appris à partir d'informations riches. Si un enjeu pour les développeurs de systèmes de TA consiste à les intégrer lors de la construction initiale des hypothèses de traduction, cela n'est pas toujours possible, car elles peuvent notamment nécessiter des hypothèses complètes ou impliquer un coût de calcul très important. En conséquence, de tels modèles complexes sont typiquement uniquement utilisés en TA pour effectuer le reclassement de listes de meilleures hypothèses complètes. Bien que ceci permette dans les faits de tirer profit d'une meilleure modélisation de certains aspects des traductions, cette approche reste par nature limitée : en effet, les listes d'hypothèses reclassées ne représentent qu'une infime partie de l'espace de recherche du décodeur, contiennent des hypothèses peu diversifiées, et ont été obtenues à l'aide de modèles dont la nature peut être très différente des modèles complexes utilisés en reclassement.

Nous formulons donc l'hypothèse que de telles listes d'hypothèses de traduction sont mal adaptées afin de faire s'exprimer au mieux les modèles complexes utilisés. Les travaux que nous présentons dans cette thèse ont pour objectif de permettre une meilleure exploitation d'informations riches pour l'amélioration des traductions obtenues à l'aide de systèmes de TA statistique.

Notre première contribution s'articule autour d'un système de réécriture guidé par des informations riches. Des réécritures successives, appliquées aux meilleures hypothèses de traduction obtenues avec un système de reclassement ayant accès aux mêmes informations riches, permettent à notre système d'améliorer la qualité de la traduction.

L'originalité de notre seconde contribution consiste à faire une construction de listes d'hypothèses par passes multiples qui exploitent des informations dérivées de l'évaluation des hypothèses de traduction produites antérieurement à l'aide de notre ensemble d'informations riches. Notre système produit ainsi des listes d'hypothèses plus diversifiées et de meilleure qualité, qui s'avèrent donc plus intéressantes pour un reclassement fondé sur des informations riches. De surcroît, notre système de réécriture précédent permet d'améliorer les hypothèses produites par cette deuxième approche à passes multiples.

Notre troisième contribution repose sur la simulation d'un type d'information idéalisé parfait qui permet de déterminer quelles parties d'une hypothèse de traduction sont correctes. Cette idéalisation nous permet d'apporter une indication de la meilleure performance atteignable avec les approches introduites précédemment si les informations riches disponibles décrivaient parfaitement ce qui constitue une bonne traduction. Cette approche est en outre présentée sous la forme d'une traduction interactive, baptisée « pré-⁠post-⁠édition », qui serait réduite à sa forme la plus simple : un système de TA statistique produit sa meilleure hypothèse de traduction, puis un humain apporte la connaissance des parties qui sont correctes, et cette information est exploitée au cours d'une nouvelle recherche pour identifier une meilleure traduction.

Mots-clés :

traduction automatique statistique, modèle complexe, reclassement d'hypothèses, recherche locale, décodage à passes multiples, post-édition

Jury

  • Marine Carpuat (rapporteure), University of Maryland
  • Philippe Langlais (rapporteur), Université de Montréal
  • Laurent Besacier (examinateur), Université ́Joseph Fourier
  • François Yvon (examinateur), Université Paris-⁠Saclay, Paris-⁠Sud
  • François Brown de Colstoun (invité), Lingua et Machina
  • Anne Vilnat (directrice de thèse), Université Paris-⁠Saclay, Paris-⁠Sud
  • Aurélien Max (co-⁠encadrant), Université Paris-⁠Saclay, Paris-⁠Sud

 Publications

Communications avec actes

Marianna Apidianaki, Benjamin Marie, METEOR-WSD: Improved Sense Matching in MT Evaluation (2015)

Benjamin Marie, Aurélien Max, Touch-Based Pre-Post-Editing of Machine Translation Output (2015)

Benjamin Marie, Aurélien Max, Multi-Pass Decoding With Complex Feature Guidance for Statistical Machine Translation (2015)

Marianna Apidianaki, Benjamin Marie, Alignment-based sense selection in METEOR and the RATATOUILLE recipe (2015)

Benjamin Marie, Aurélien Max, Confidence-based Rewriting of Machine Translation Output (2014)

Benjamin Marie, Aurélien Max, A study in greedy oracle improvement of translation hypotheses (2013)

 

Workshops et ateliers

Benjamin Marie, Alexandre Allauzen, Franck Burlot, Quoc Khanh Do, Julia Ive, Elena Knyazeva, Matthieu Labeau, Thomas Lavergne, Kevin Löser, Nicolas Pécheux, François Yvon, LIMSI@WMT15 : Translation Task (2015)

Nicolas Pécheux, Li Gong, Quoc Khanh Do, Benjamin Marie, Yulia Ivanishcheva, Alexandre Allauzen, Thomas Lavergne, Jan Niehues, Aurélien Max, François Yvon, LIMSI @ WMT'14 Medical Translation Task (2014)

 

 

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Le LIMSI en chiffres

10 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 Université Paris-Sud nouvelle fenêtre

 

Paris-Saclay nouvelle fenêtre