Confidence Measures for Alignment and for Machine Translation

Thèse de Yong XU, doctorant de l'équipe TLP - 26 septembre 2016

Traduction automatique, TAL

En linguistique informatique, la relation entre langues différentes est souvent étudiée via des techniques d’alignement automatique. De tels alignements peuvent être établis à plusieurs niveaux structurels. En particulier, les alignements de bi-textes aux niveaux phrastiques et sous-phrastiques constituent des sources importantes d’information dans pour diverses applications du Traitement Automatique du Language Naturel (TALN) moderne, la Traduction Automatique étant un exemple proéminent.
Cependant, le calcul effectif des alignements de bi-textes peut être une tâche compliquée. Les divergences entre les langues sont multiples, de la structure de discours aux constructions morphologiques. Les alignements automatiques contiennent, majoritairement, des erreurs nuisant aux performances des applications. Dans cette situation, deux pistes de recherche émergent. La première est de continuer à améliorer les techniques d’alignement. La deuxième vise à développer des mesures de confiance fiables qui permettent aux applications de sélectionner les alignements selon leurs besoins. Les techniques d’alignement et l’estimation de confiance peuvent tous les deux bénéficier d’alignements manuels. Des alignements manuels peuvent jouer un rôle de supervision pour entraîner des modèles, et celui des données d’évaluation. Pourtant, la création des telles données est elle-même une question importante, en  particulier au niveau sous-phrastique, où les correspondances multilingues peuvent être implicites et difficiles à capturer. Cette thèse étudie des moyens pour acquérir des alignements de bi-textes utiles, aux niveaux phrastiques et sous-phrastiques.

Publications