Thèse de Antoine NEURAZ, sous la co-direction de Anita BURGUN et Sophie ROSSET, mardi 15/12/2020 à 14:30 en visioconférence
Lien : https://us02web.zoom.us/j/84534286985?pwd=ekExcWFFZVBucEFLMWZMQlBvYjkydz09
Le jury sera composé des personnes suivantes:
- Marc CUGGIA, PU-PH, Université Rennes 1 Rapporteur
- Benoit FAVRE, MCF, HDR, Aix-Marseille Université Rapporteur
- Guillaume ASSIE, PU-PH, Université de Paris Examinateur
- Christian LOVIS, PU, Université de Genève Examinateur
- Anita BURGUN, PU-PH, Université de Paris Directrice de thèse
- Sophie ROSSET, DR, Université Paris-Saclay, CNRS Codirectrice de thèse
Dans le domaine médical, la langue naturelle tient une place particulièrement importante pour la communication et le stockage d’informations. En effet, outre les données dites “structurées” (e.g., les résultats d’examens biologiques), la langue naturelle est omniprésente : formulaires de demande d’examens, notes de suivi clinique, comptes-rendus d’hospitalisation, comptes-rendus d’examens d’imagerie, en sont des exemples. Ce langage naturel médical est complexe et difficile à maîtriser : il faut plusieurs années aux futurs médecins pour apprendre à le déchiffrer correctement. En effet, le jargon y est omniprésent, ainsi que des références à des connaissances implicites, des abréviations inconstantes ou encore des fautes d’orthographe ou de frappe. Malgré la difficulté, entraîner des machines à comprendre le texte médical, soit pour faciliter l’accès à l’information, soit pour extraire de l’information, est une tâche essentielle pour améliorer à la fois l’accès à l’information et les connaissances médicales. La première partie de cette thèse concerne l’accès aux informations et s’intéresse à la compréhension du langage naturel dans le cadre d’un agent conversationnel permettant d’interroger le dossier patient informatisé. Nous nous sommes intéressés à des techniques de supervision distante (i.e., génération, paraphrase) pour entraîner un modèle de compréhension de la langue en l’absence de données d’entraînement basé sur des réseaux de neurones récurrents. Nous avons également étudié l’apport de plongements lexicaux contextualisés (word embeddings) spécialisés sur des tâches de compréhension du langage médical. Dans la deuxième partie, nous nous sommes intéressés à l’extraction d’informations sur les médicaments dans les textes cliniques. Nous avons en premier lieu développé un corpus de textes cliniques annotés, et un modèle d’extraction hybride combinant règles expertes et apprentissage par réseaux de neurones récurrents. Par la suite, nous avons montré l’intérêt de déployer de tels systèmes à grande échelle pour assurer une réponse rapide dans le cadre de maladies émergentes telles que la COVID-19.