Stage de Master Recherche en Informatique


Recherche de traductions dans des corpus comparables



Sujet proposé par Pierre Zweigenbaum (pzlimsi.fr)

Niveau d'études: Master 2 Recherche en Informatique ou 3ème année d'école d'ingénieurs

Mots clésTraduction ; Analyse distributionnelle ; Corpus comparables ; Chinois


Description du sujet

Contexte : identification de relations de traduction dans des corpus comparables (non parallèles)

Les corpus multilingues fournissent des données à partir desquelles on peut inférer des relations de traduction entre mots (ainsi qu'entre termes ou entités nommées). Les corpus parallèles constituent la source la plus fiable, mais ils souffrent de deux défauts. D'une part, leur quantité est limitée, aussi bien en termes de paires de langues qu'en termes de domaines et de genres de textes concernés. D'autre part, ils contiennent des textes qui sont le résultat d'une traduction, et risquent ainsi d'être de mauvais représentants d'une langue (risques de calques et autres biais de traduction).

Les corpus « comparables » tentent d'apporter une solution à ces deux problèmes. Il s'agit de paires de corpus monolingues dans deux langues, composés de textes non parallèles, mais appartenant au même domaine, genre, type de discours, etc. D'une part, le volume et la variété des textes que l'on peut rassembler de cette manière est potentiellement beaucoup plus grand. D'autre part, on peut ainsi avoir des textes qui sont des originaux, ce qui élimine le biais de traduction. En revanche, l'identification de traductions dans des corpus comparables, essentiellement fondée sur une analyse distributionnelle dans chaque corpus, est plus difficile que dans des corpus parallèles, et ses résultats sont beaucoup moins fiables.

L'objectif de ce stage est d'améliorer la fiabilité de la recherche de traductions dans des corpus comparables.

Thème : identification de relations de traduction entre mots (et termes et entités nommées) en utilisant les relations qu'ils entretiennent

L'idée mise en avant est de s'appuyer sur des indices de l'usage des mots (et donc de leur sens) plus discriminants que leur profil distributionnel global. Le fait qu'une entité (exprimée par un mot, un terme, une « entité nommée ») joue un rôle particulier par rapport à une autre entité (l'aspirine soulage la douleur) donne des indices forts sur le sens des mots employés. Si le même rôle est relevé pour une entité dans un corpus d'une autre langue (ASA alleviates pain), cet indice devrait aider à renforcer la mise en correspondance entre mots (ou termes ou entités) : aspirine ↔ ASA, douleur ↔ pain, soulage ↔ alleviates.

Cette méthode peut être vue comme une façon de distinguer certains contextes d'usage pris en compte de façon moins différenciée par les méthodes classiques à base d'analyse distributionnelle : elle étend et spécialise les contextes pris en compte.

Description du stage

L'objet du stage proposé est de concevoir, mettre en œuvre et expérimenter de nouvelles méthodes d'alignement de termes en corpus comparables. Ces méthodes s'appuieront sur la détection de correspondances non seulement entre des entités dans les deux corpus, mais aussi sur la détection de relations similaires entre ces entités dans les deux corpus. Ces méthodes seront testées sur des corpus existants, collectés dans le cadre du projet C-Mantic, qui pourront être étendus selon les besoins pour ces expérimentations.

Le travail pourra suivre les étapes suivantes :

  1. Étudier la bibliographie récente sur les corpus comparables (voir en particulier les références citées plus bas et les travaux des projets ANR METRIC, EU ACCURAT et TCC).
  2. Tester les méthodes classiques de repérage de traductions entre corpus comparables sur les corpus C-Mantic (français, chinois, et éventuellement anglais).
  3. Mettre en place une reconnaissance d'entités (termes, entités nommées) dans les langues concernées (pour le français, on pourra utiliser des systèmes disponibles au LIMSI).
  4. Étudier les alignements de ces entités. En particulier, étudier les couples de phrases qui contiennent plusieurs entités alignées, et les relations qui existent entre ces entités.
  5. Mettre à profit les observations faites pour améliorer la recherche de traductions en utilisant les relations entre entités.

Les ressources et outils mis à disposition pour ce stage incluent les corpus français et chinois du projet C-Mantic. La réalisation se fera sous Linux, le langage de programmation sera a priori libre

Le stage aura lieu au LIMSI-CNRS dans le groupe ILES.

Bibliographie