Formation

Stages

Nom de l'encadrant
Gabriel Illouz
Contact
Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Titre
NL2FL (Natural to Formal Language)
Descriptif
Encadrants :
Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser., Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser., Vincent Letard, Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.,

Sujet :
L’objet de stage est la traduction de la langue naturelle en langue formelle, par exemple de l’anglais au SQL.
Prenons une base de données sur des avis d’utilisateurs sur des restaurants.
Autant "Donner les notes de Encieux Cecile : notes, et nomLieu"
est assez direct et se traduit en :

SELECT noteAvis,messageAvis,nomLieu
FROM ETUDIANT NATURAL JOIN AVIS NATURAL JOIN LIEU
WHERE nomEtudiant=’Encieux’ AND prenomEtudiant=’Cecile’;

Autant, la suivante nécessite de l’interprétation : "la note d’un restaurant est calculée comme étant la moyenne des avis sur celui-ci. Elle est stocké dans la table LIEU pour ne pas être recalculée tout le temps. Afficher les lieux dont le calcul n’est pas à jour."
Elle se traduit au final par :

SELECT nomLieu
FROM AVIS NATURAL JOIN LIEU
GROUP BY nomLieu
HAVING AVG(noteAvis) != noteLieu;

Les données utilisées pendant le stage sont composées de 3 792 requêtes en anglais et leurs équivalent en SQL. Elles sont réparties en 4 niveaux de difficultés sur 5 bases de données (MOVIEDATA, CHINOOK, COLLEGE, DRIVING SCHOOL, et FORMULA I). Sur ces don- nées, le système neuronal qui traduit de langue naturelle en langue formelle a des performances qui dépassent difficilement 50% [DMS+20].

Les difficultés à étudier seront celles liées au transfert d’apprentissage, aux interprétations linguistiques, aux ambiguïtés qui devront être détectées entre les deux langues.
Le but du stage sera d’abord d’étudier les limites des méthodes existantes, puis de proposer une nouvelle méthode.

Description des tâches
• Tester la limite de l’approche de l’article [DMS+20]
• Faire une analyse quantitative et qualitative des erreurs
• Proposer et évaluer d’autres approches (analogie, PCFG + deep learning, ...)[LRI16,YN17, DMS+20]

Profil attendu
• Master 2 en Informatique (ou équivalent), avec au moins une spécialité en – Apprentissage
– Traitement automatique de la langue
• Compétences techniques : python, linux, SQL
Informations pratiques
• Durée du stage: 5-6 mois
• Début du stage: date de début à définir avec le stagiaire
• Gratification: environ 591 emois. Subvention frais de transport et cantine


References

[DMS+20] Jan Deriu, Katsiaryna Mlynchyk, Philippe Schläpfer, Alvaro Rodrigo, Dirk von Grünigen, Nicolas Kaiser, Kurt Stockinger, Eneko Agirre, and Mark Cieliebak. A methodology for creating question answering corpora using inverse data annota- tion. In Proceedings of the 58th Annual Meeting of the Association for Computa- tional Linguistics, pages 897–911, Online, July 2020. Association for Computational Linguistics.

[LRI16] Vincent Letard, Sophie Rosset, and Gabriel Illouz. Incremental learning from scratch using analogical reasoning. In 28th IEEE International Conference on Tools with Artificial Intelligence, ICTAI 2016, San Jose, CA, USA, November 6-8, 2016, pages 204–211. IEEE Computer Society, 2016.

[YN17] Pengcheng Yin and Graham Neubig. A syntactic neural model for general-purpose code generation. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 440–450, Vancouver, Canada, July 2017. Association for Computational Linguistics.
Domaine
traitement du langage parlé, écrit et gestuel
Mots clés
  • Apprentissage
  • Traitement Automatique du Language Naturel Écrit
Niveau
M2
Groupe(s)
ILES
Date de début
2021-03-01
Durée
5-6 mois

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Rapport scientifique

 

Le LIMSI en chiffres

7 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 

Paris-Saclay nouvelle fenêtre


Logo DataIA

 

© 2017 LIMSI CNRS