Recrutement

Stages

Nom de l'encadrant
Aurélie Névéol
Contact
Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Titre
Analyse d’un corpus clinique traduit en français
Descriptif
Mots-clés :
Traitement automatique de la langue, traduction, classification, domaine biomédical

Contexte:

Création d’un corpus clinique du français partageable

La création d’un corpus de documents cliniques en français partageable avec la communauté scientifique afin de soutenir la recherche en traitement automatique de la langue clinique est soumise à la réglementation française en lien avec le secret médical et la protection des données personnelles. La transcription des directives européennes en droit français marque actuellement une évolution forte des règlementations. En accord avec la protection des individus offerte par la législation francaise et européene en cours de construction, nous proposons d’utiliser un corpus de documents synthétiques, issu de la traduction de document américains (en anglais) désidentifiés et bénéficiant d’une autorisation de diffusion à des fins de recherche dans un cadre très strict (Johnson et al. 2016).

Validation du corpus pour le traitement automatique de la langue

Afin de valider cette approche, il est nécessaire de réaliser une étude comparative entre le corpus synthétique et un corpus de documents natifs issu d’hôpitaux français. Cette analyse a pour objectif de caractériser les différences qui peuvent exister entre les deux types de texte. Ces différences peuvent être d’ordre syntaxique ou lexical, induites par les phénomènes de simplification et d’explicitation (Volansky et al. 2015). Les différences peuvent également résulter de différences culturelles dans la pratique médicales en France et aux Etats-Unis. Par exemple, certains médicaments prescrits aux Etats-unis ne bénéficient pas d’autorisation de mise sur le marché en France. De même, certaines pratiques médicales comme les ordonnances de non ressuscitation n’ont pas cours en France. Par ailleurs, des travaux en traductologie ont montré que les textes traduits pouvaient être automatiquement distingués de textes natifs avec de bonnes performances (Rabinovich & Wintner, 2015). Nous prévoyons d’appliquer ces méthodes sur nos données de spécialité à différents niveaux de granularité (texte complet, section, phrase) afin d’apprécier le degré de différence entre textes traduits et texte natifs, sachant qu’une grande partie des travaux en TAL clinique à l’heure actuelle s’appuie sur une analyse au niveau de la phrase ou de la section – selon la définition de la typologie internationale LOINC (Reich et al. 2017).

Travail à réaliser :

L'objectif du stage est une analyse comparative de documents cliniques en français natif vs. traduit de l’anglais.
Ce travail s’appuiera notamment sur les recherches actuelles en traductologie et en linguistique de corpus (Rabinovich & Wintner, 2015 ; Volansky et al. 2015).
Les objectifs suivants seront notamment poursuivis : 1/ évaluer la granularité permettant de distinguer automatiquement des textes natifs de textes traduits puis adaptés dans un domaine de spécialité (analyse au niveau de la phrase, de la section, du document) 2/ caractériser les différences et similitudes entre textes natifs et textes traduits du point de vue stylistique, linguistique, structurel et culturel 3/ évaluer la pertinence du corpus issu de la traduction pour l’évaluation de méthodes de traitement automatique de la langue clinique, par exemple la reconnaissance d’entités nommées.

Le.a stagiaire devra avoir de bonnes compétences en informatique. Des connaissances en traitement automatique de la langue, en traduction automatique ou traduction assistée par ordinateur seront un plus.

Durée : 5 mois

Niveau : Master 2 (professionnel ou recherche)

Rémunération : 554 euros net /mois + participation au forfait de transport

Contact:
Aurelie.Neveol[at]limsi.fr

Références
Johnson AEW, Pollard TJ, Shen L, Lehman L, Feng M, Ghassemi M, Moody B, Szolovits P, Celi LA, and Mark RG. MIMIC-III, a freely accessible critical care database. Scientific Data (2016).
Ella Rabinovich and Shuly Wintner. Unsupervised Identification of Translationese. Transactions of the Association for Computational Linguistics 3:419-432, 2015.
Christian Reich, Patrick Ryan, Rimma Belenkaya, Karthik Natarajan and Clair Blacketer. OMOP Common Data Model v5.2 Specifications. Rapport Technique. 20/07/2017
Vered Volansky, Noam Ordan and Shuly Wintner. On the features of translationese. Digital Scholarship in the Humanities 30(1):98-118, April 2015.
Domaine
traitement du langage parlé, écrit et gestuel
Mots clés
  • constitution de ressources
  • Traitement Automatique du Language Naturel Écrit
Niveau
M2
Groupe(s)
ILES
Date de début
Durée
5 mois

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Le LIMSI en chiffres

10 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 Université Paris-Sud nouvelle fenêtre

 

Paris-Saclay nouvelle fenêtre