Actualités

Confidence Measures for Alignment and for Machine Translation

Thèse de Yong XU, doctorant de l'équipe TLP - 26 septembre 2016

Traduction automatique, TAL

En linguistique informatique, la relation entre langues différentes est souvent étudiée via des techniques d’alignement automatique. De tels alignements peuvent être établis à plusieurs niveaux structurels. En particulier, les alignements de bi-textes aux niveaux phrastiques et sous-phrastiques constituent des sources importantes d’information dans pour diverses applications du Traitement Automatique du Language Naturel (TALN) moderne, la Traduction Automatique étant un exemple proéminent.
Cependant, le calcul effectif des alignements de bi-textes peut être une tâche compliquée. Les divergences entre les langues sont multiples, de la structure de discours aux constructions morphologiques. Les alignements automatiques contiennent, majoritairement, des erreurs nuisant aux performances des applications. Dans cette situation, deux pistes de recherche émergent. La première est de continuer à améliorer les techniques d’alignement. La deuxième vise à développer des mesures de confiance fiables qui permettent aux applications de sélectionner les alignements selon leurs besoins. Les techniques d’alignement et l’estimation de confiance peuvent tous les deux bénéficier d’alignements manuels. Des alignements manuels peuvent jouer un rôle de supervision pour entraîner des modèles, et celui des données d’évaluation. Pourtant, la création des telles données est elle-même une question importante, en  particulier au niveau sous-phrastique, où les correspondances multilingues peuvent être implicites et difficiles à capturer. Cette thèse étudie des moyens pour acquérir des alignements de bi-textes utiles, aux niveaux phrastiques et sous-phrastiques.

Publications

  • Yong Xu, Aurélien Max, François Yvon, Sentence Alignment for Literary Texts (2015) , LILT (Linguistic Issues in Language Technology), 2015, vol. 12, n°6, 25 pages, URL : http://csli-lilt.stanford.edu/ojs/index.php/LiLT/article/download/58/54
  • Yong Xu, François Yvon, Novel elicitation and annotation schemes for sentential and sub-sentential alignments of bitexts (2016), 10th Language Resources and Evaluation Conference (LREC 2016), Portorož, Slovenia, 23/05 au 28/05, 2016
  • François Yvon, Yong Xu, Marianna Apidianaki, Clément Pillias, Pierre Cubaud, TransRead: Designing a Bilingual Reading Experience with Machine Translation Technologies (2016), Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2016), San Diego, 13/06 au 15/06, 2016, 27--31
  • Yong Xu, François Yvon, A 2D CRF Model for Sentence Alignment (2016), 9th Workshop on Building and Using Comparable Corpora, Portorož, Slovenia, European Language Resources Association

 

LIMSI
Campus universitaire bât 508
Rue John von Neumann
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Le LIMSI en chiffres

10 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 Université Paris-Sud nouvelle fenêtre

 

Paris-Saclay nouvelle fenêtre