ILES

Function Point Analysis is a complex task and identifying function points in a early stage specification document is the most complex part of it. Although it has been in practice for quite sometime, very little research exists regarding automating Function Point Identification and to our knowledge, none exist regarding the use of Natural Language Processing (NLP) for Function Point Analysis. In this day and age, when software development is considered to be a primary human activity, the necessity of a fully automated Function Point analysis is not disputed. We are presenting this work with the objective of establishing a platform for automated Function Point Identification based on Natural Language Processing. In particular, we have presented the details of the development of a corpus for research for Function Point Identification in specification documents. We also presented experimental results obtained using the corpus that can be useful to develop new methods to approach the problem in an objective and reproducible manner. This research and its contributions are expected to lay the foundation stone for the elaborate research on fully automatic Function Point Analysis from Natural Language specification documents.

Auteur de la thèse

Munshi Asadullah

Date de soutenance

Lundi 28 septembre 2015 à 14h

Jury

  • Pascalle Sébillot, Rapporteur
  • Yannick Toussaint, Rapporteur
  • Sophie Rosset, Examinateur
  • François Marmier, Examinateur
  • Anne Vilnat, Directeur de thèse
  • Patrick Paroubek, Co-encadrant

Publications

  • P. Paroubek, M. Asadullah, D. Nouvel, Using verb-noun patterns to detect process inputs, 17th International Conference on Text, Speech and Dialogue, Brno, Czech Republic, 08/09/2014, 181-188
  • M. Asadullah, P. Paroubek, A. Vilnat, Bidirectionnal converter between syntactic annotations : from French Treebank Dependencies to PASSAGE annotations, and back, 9th International Conference on Language Resources and Evaluation (LREC 2014), Reykjavik, Iceland, 26/05 au 31/05, 2014, 2342-2347
  • P. Paroubek, M. Asadullah, A. Vilnat, Convertir des analyses syntaxiques en dépendances vers les relations fonctionnelles PASSAGE, 20ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2013), Les Sables d'Olonne, France, 17/06 au 21/06, 2013, 675-682
  • M. Asadullah, A. Vilnat, P. Paroubek, Converting from the French Treebank Dependencies into PASSAGE syntactic annotations, 6th Language & Technology Conference : Human Language Technologies as a Challenge for Computer Science and Linguistics (L&TC 2013), Poznań, Pologne, 7/12 au 9/12, 2013, 188-182

T. Lavergne, T. Hamon, A.-L. Ligozat, A. Névéol, P. Zweigenbaum avec la participation de: C. Grouin, G. Illouz, P. Paroubek, A. Vilnat

Ce thème de recherche se consacre à l'analyse de productions langagières de même sens mais de formes différentes, problématique au cœur de la sémantique. Cette question s'étend au multilinguisme, question récurrente lors du développement d'un système. Ce thème interagit de façon transverse avec chacun des trois autres thèmes du groupe ILES, ainsi qu'avec l'activité de traduction du groupe TLP.

Les travaux de ce thème concernent principalement les axes suivants :

  • production de corpus multilingues ;
  • transfert d'information entre langues :
  • adaptation de systèmes de TAL existants à d'autres langues :
  • acquisition de segments textuels alignables monolingues :
  • acquisition de segments textuels alignables bilingues.

 

Les personnes impliquées dans les projets de ce thème font partie de plusieurs groupes

Permanents ILES : A. Braffort, M. Filhol - Autres groupes : M. Gouiffès (AMI), E. Prigent (CPU) et C. Verrecchia (P2I)

Doctorants ILES : V. Belissen, F. Bigand, M. Kaczmarek - Autres groupes : H. Bull (AMI), H. Chaaban (AMI)

Les Langues des Signes (LS) sont des langues naturelles pratiquées au sein des communautés de Sourds et la Langue des Signes Française (LSF) est celle utilisée en France. Ce sont des langues visuo-gestuelles : une personne s'exprime en LS en utilisant de nombreuses composantes corporelles (les mains et les bras, mais aussi les expressions du visage, le regard, le buste, etc.) et son interlocuteur perçoit le message par le canal visuel. Le système linguistique des LS exploite ces canaux spécifiques : de nombreuses informations sont exprimées simultanément et s'organisent dans l'espace, et l'iconicité joue un rôle central.

À ce jour, les LS n'ont pas de système d'écriture ni de système graphique standard pour la transcription. Elles sont encore peu décrites et peu dotées (très peu d'ouvrages de référence, lexiques limités, connaissances partielles sur la grammaire, peu de ressources en général). La modélisation informatique des LS nécessite de concevoir des représentations dans un domaine où peu de données sont disponibles et où les modèles pré-existants, essentiellement linéaires, ont été développés pour les langues écrites ou parlées et ne couvrent pas tous les aspects des LS.

À travers de nombreuses collaborations, nous produisons des ressources linguistiques et nous abordons des problématiques d'analyse, de représentation et de traitement de la LSF de manière interdisciplinaire, avec des points de vue de plusieurs domaines de l'informatique (TAL, traitement du signal, vision par ordinateur, informatique graphique), ainsi que des sciences du langage, du mouvement et de la perception.

En savoir plus (lien vers les pages des projets)

 

Ouvrage « La Langue des Signes Française (LSF), modélisations, ressources et applications », publié en janvier 2016 sous la direction de A. Braffort, à commander sur le site des éditions ISTE.

1ere de couverture

Permanents: S. Ghannay, C. Grouin, T. Hamon, G. Illouz, T. Lavergne, AL. Ligozat, A. Névéol, S. Rosset, P. Zweigenbaum, avec la participation de P. Paroubek et  A. Vilnat.
Doctorants: H Boulanger, O Cattan, JM Coria, H El Boukkouri, L Galmant (ILES/TLP), C Masson, N Paris, TF Randriatsitohaina, LP Schaub, M Véron

Deux axes principaux dans ce thème.

Le premier est centré sur la reconnaissance d'informations précises dans des textes, avec deux principaux champs d'étude :

  • Extraction d'information : reconnaissance et typage d'informations pour construire des bases de connaissances ou analyser des textes
  • Recherche d'information précise : retrouver des informations dans des textes ou des bases de connaissances en réponse à des questions en langue naturelle

Un second axe concerne la modélisation des processus permettant une interaction en langue naturelle pour interroger la machine, que ce soit pour la recherche d'information, dans un domaine particulier (par exemple sur un site marchand, dans des textes scientifiques) ou en domaine ouvert (recherche dans une base de connaissances ou dans des textes encyclopédiques), et aussi en tant qu'assistant personnel.

Thèmes développés :

  • Reconnaissance d'entités nommées en domaine général et en domaine de spécialité (biomédical essentiellement), reconnaissance de types complexes, prise en compte du phénomène de rareté lexicale
  • Extraction de relations en domaine général et en domaine de spécialité (biomédical essentiellement), avec des approches supervisées et non supervisées, fondée sur des informations de surface et des représentations structurées
  • Reconnaissance d'événements et d'information temporelle, extraction de chronologies
  • Détection d'opinion
  • Représentation et inférence sémantique pour répondre à des questions sur des textes et pour l'interrogation de bases de connaissances
  • Modélisation de l'interaction humain-machine en langue naturelle, systèmes de dialogue

P. Paroubek , C. Grouin, A. Braffort, M. Filhol, Sahar Ghannay, T. Hamon, Corentin Masson, A. Névéol, Léon-Paul Schaub, A. Vilnat, P. Zweigenbaum

Le thème Corpus et représentations concerne l'étude des événements linguistiques tels qu'ils se manifestent dans les systèmes de représentation graphiques et signés utilisés par les humains pour communiquer. Dans nos travaux de recherche, nous explorons des corpus, c'est-à-dire des collections de documents, créés selon une hypothèse de travail, ayant des origines diverses : transcription de parole, livres, articles, journaux, rapports, pages web, blogs, microblogs, vidéos de langue des signes etc.
Définir la représentation visée pour une tâche de Traitement automatique des langues donnée (par exemple étiquetage morphosyntaxique, analyse syntaxique, reconnaissance d'entités nommées, fouille d'opinion...) est une étape fondamentale dans l'étude de la tâche et de ses fondations linguistiques. Créer des corpus annotés selon cette représentation fournit un matériau indispensable pour le développement, l'entraînement ou l'évaluation de systèmes, et permet de définit des campagnes d'évaluation, qui jouent désormais un rôle clé dans la définition de directions de recherche au niveau national et international.
Le groupe ILES a une grande expérience dans la création de corpus annotés et l'organisation de campagnes d'évaluation fondées sur ces corpus. Notre expertise dans ce domaine nous permet de collaborer avec de nombreux partenaires académiques et industriels dans le cadre de campagnes d'évaluation nationales et internationales ainsi que dans le contexte des projets collaboratifs des pôles de compétitivité CAP-Digital et SYSTEM@TIC (FUI), de l'ANR, du FSN (AAP Big Data), de l'ERA-net européen CHIST-ERA etc.; au besoin merci de vous reporter à la liste des projets.

Pour plus d'informations merci de suivre les liens suivants (à venir) :

  • l'annotation de corpus,
  • les corpus pour l'apprentissage automatique,
  • les corpus, leurs représentations, l'évaluation et les mesures,
  • les corpus de langue des signes, merci de vous reporter à la description du thème Langue des Signes.

Cette page présente les publications récentes du groupe ILES.

  • Les 20 derniers articles dans des revues internationales ou nationales avec comité de lecture
  • Les 20 dernières communications avec actes dans un congrès international.
  • Les 10 dernières thèses soutenues.

Les publications plus anciennes sont consultables dans HAL.

Articles dans des revues

  1. Joseph-Jean Mariani, Gil Francopoulo and Patrick Paroubek.
    The NLP4NLP Corpus (I): 50 Years of Publication, Collaboration and Citation in Speech and Language Processing. Frontiers in Research Metrics and Analytics, 2019.
    URL

  2. Joseph-Jean Mariani, Gil Francopoulo, Patrick Paroubek and Frédéric Vernier.
    The NLP4NLP Corpus (II): 50 Years of Research in Speech and Language Processing. Frontiers in Research Metrics and Analytics, 2019.
    URL

  3. Natalia Grabar and Cyril Grouin.
    A Year of Papers Using Biomedical Texts: Findings from the Section on Clinical Natural Language Processing of the International Medical Informatics Association Yearbook. IMIA Yearbook of Medical Informatics, 2019.

  4. Yasmine Baghdadi, Alix Bourrée, Aude Robert, Grégoire Rey, Anne Gallay, Pierre Zweigenbaum, Cyril Grouin and Anne Fouillet.
    Automatic classification of free-text medical causes from death certificates for reactive mortality surveillance in France. International Journal of Medical Informatics, 2019.
    URL

  5. Leonardo Campillos-Llanos, Catherine Thomas, Eric Bilinski, Pierre Zweigenbaum and Sophie Rosset.
    Designing a virtual patient dialogue system based on terminology-rich resources: challenges and evaluation. Natural Language Engineering, 2019.
    URL

  6. Pierre Magistry, Anne-Laure Ligozat and Sophie Rosset.
    Exploiting languages proximity for part-of-speech tagging of three French regional languages. Language Resources and Evaluation, 2019.
    URL

  7. Yasmine Baghdadi, Alix Bourrée, Aude Robert, Grégoire Rey, Anne Gallay, Pierre Zweigenbaum, Cyril Grouin and Anne Fouillet.
    Performance of machine learning method to classify free-text medical causes of death. Online Journal of Public Health Informatics, 2019.
    URL

  8. Christopher Norman, Mariska Leeflang, Raphaël Porcher and Aurélie Névéol.
    Measuring the impact of screening automation on meta-analyses of diagnostic test accuracy. Systematic Reviews, 2019.

  9. Carole Deccache, Thierry Hamon, Maxime Morsa, Vincent De Andrade, Maria Grazia Albano and Rémi Gagnayre.
    Helping patients to learn : characteristics and types of users and uses of independent online forums on health problems and chronic conditions. Éducation thérapeutique du patient / Therapeutic patient education, 2019.

  10. Amel Fraisse, Zheng Zhang, Alex Zhai, Ronald Jenn, Shelley Fisher Fishkin, Pierre Zweigenbaum, Laurence Favier and Widad Mustafa El Hadi.
    A Sustainable and Open Access Knowledge Organization Model to Preserve Cultural Heritage and Language Diversity. Information, 2019.

  11. Leonardo Campillos, Louise Deléger, Cyril Grouin, Thierry Hamon, Anne-Laure Ligozat and Aurélie Névéol.
    A French clinical corpus with comprehensive semantic annotations: development of the Medical Entity and Relation LIMSI annOtated Text corpus (MERLOT). Language Resources and Evaluation, 2018.
    URL

  12. Aurélie Névéol, Hercules Dalianis, Sumithra Velupillai, Guergana Savova and Pierre Zweigenbaum.
    Clinical Natural Language Processing in languages other than English: opportunities and challenges.. Journal of Biomedical Semantics, 2018.
    URL

  13. Pierre Karapetiantz, Florelle Bellet, Bissan Audeh, Jérémy Lardon, Damien Leprovost, Rim Aboukhamis, François Morlane-Hondère, Cyril Grouin, Anita Burgun, Sandrine Katsahian, Marie-Christine Jaulent, Marie-Noëlle Beyens, Agnès Lillo-Le Louët and Cédric Bousquet.
    Descriptions of Adverse Drug Reactions are Less Informative in Forums than in the French Pharmacovigilance Database but Provide More Unexpected Reactions. Frontiers in Pharmacology, 2018.
    URL

  14. Aurélie Névéol and Pierre Zweigenbaum.
    Expanding the Diversity of Texts and Applications: Findings from the Section on Clinical Natural Language Processing of the International Medical Informatics Association Yearbook.. IMIA Yearbook of Medical Informatics, 2018.
    URL

  15. Sidahmed Benabderrahmane, Nedra Mellouli, Myriam Lamolle and Patrick Paroubek.
    Smart4Job: A Big Data Framework for Intelligent Job Offers Broadcasting Using Time Series Forecasting and Semantic Classification. Big Data Research, 2017.

  16. Aurélie Névéol and Pierre Zweigenbaum.
    Making Sense of Big Textual Data for Health Care: Findings from the Section on Clinical Natural Language Processing. IMIA Yearbook of Medical Informatics, 2017.
    URL

  17. Louise Deléger, Leonardo Campillos, Anne-Laure Ligozat and Aurélie Névéol.
    Design of an extensive information representation scheme for clinical narratives. Journal of Biomedical Semantics, 2017.
    URL

  18. Christopher Norman, Thu Van Nguyen and Aurélie Névéol.
    Contribution of Natural Language Processing in Predicting Rehospitalization Risk. Medical care, 2017.
    URL

  19. Joseph-Jean Mariani, Gil Francopoulo and Patrick Paroubek.
    Reuse and Plagiarism in Speech and Natural Language Processing. International Journal on Digital Libraries, 2017.
    URL

  20. Morgane Marchand, Romaric Besançon, Olivier Mesnard and Anne Vilnat.
    Domain Adaptation for Opinion Mining: A Study of Multipolarity Words. Journal for Language Technology and Computational Linguistics, 2014.


Communications internationales

  1. Sahar Ghannay, Antoine Neuraz and Sophie Rosset.
    What is best for Spoken Language Understanding: Small but Task-dependant Embeddings or Huge but Out-of-domain Embeddings?. In IEEE International Conference on Acoustics, Speech, and Signal Processing. 2020.
    URL

  2. Mathilde Veron, Anselmo Peñas, Guillermo Echegoyen, Somnath Banerjee, Sahar Ghannay and Sophie Rosset.
    A Cooking Knowledge Graph and Benchmark for Question Answering Evaluation in Lifelong Learning Scenarios. In International Conference on Applications of Natural Language to Information Systems. 2020.

  3. Hanna Pylieva, Artem Chernodub, Natalia Grabar and Thierry Hamon.
    Generalizability of readability models for medical terms. In International Congress on Medical Informatics. 2019.
    URL

  4. Natalia Grabar and Thierry Hamon.
    WikiWars-UA : Ukrainian corpus annotated with temporal expressions. In Computational Linguistics and Intelligent Systems. 2019.
    URL

  5. Hanna Pylieva, Artem Chernodub, Natalia Grabar and Thierry Hamon.
    RNN embeddings for identifying difficult to understand medical words. In ACL Workshop on Biomedical Natural Language Processing. 2019.
    URL

  6. Georgeta Bordea, Tsanta Randriatsitohaina, Natalia Grabar, Fleur Mougin and Thierry Hamon.
    Query selection methods for automated corpora construction with a use case in food-drug interactions. In ACL Workshop on Biomedical Natural Language Processing. 2019.
    URL

  7. Hussein Chaaban, Michèle Gouiffès and Annelies Braffort.
    Towards an Automatic Annotation of French Sign Language Videos: Detection of Lexical Signs. In International Conference Computer Analysis of Images and Patterns. 2019.

  8. Hicham El Boukkouri, Olivier Ferret, Thomas Lavergne and Pierre Zweigenbaum.
    Embedding strategies for specialized domains: Application to clinical entity recognition. In Annual Meeting of the Association for Computational Linguistics. 2019.

  9. Sanjay Kamath, Brigitte Grau and Yue Ma.
    How to Pre-Train Your Model? Comparison of Different Pre-Training Models for Biomedical Question Answering. In BioASQ Workshop at ECMLPKDD conference. 2019.

  10. Georgeta Bordea, Franck Thiessard, Thierry Hamon and Fleur Mougin.
    Automatic query selection for acquisition and discovery of food-drug interactions. In Conference and Labs of the Evaluation Forum. 2018.
    URL


Thèses

  1. Wafa Neifar.
    Méthodes d'acquisition terminologique en arabe : application au domaine médical. 2019.

  2. Rashedur Rahman.
    Knowledge Base Population based on Entity Graph Analysis. 2018.

  3. Emanuela Boros.
    Neural Methods for Event Extraction. 2018.

  4. Dialekti Valsamou.
    Extraction d’Information pour les réseaux de régulation de la graine chez Arabidopsis Thaliana. 2017.

  5. Mohamed-el-Fatah Benchiheub.
    Contribution à l'analyse des mouvements 3D de la Langue des Signes Française (LSF) en Action et en Perception. 2017.

  6. Mohamed Hadjadj.
    Modélisation de la Langue des Signes Française : Proposition d'un système à compositionalité sémantique. 2017.

  7. Martin Gleize.
    Textual Inference for Machine Comprehension. 2016.

  8. Benjamin Marie.
    Exploitation d’informations riches pour guider la traduction automatique statistique. 2016.

  9. Van-Minh Pho.
    Génération automatique de questionnaires à choix multiples pédagogiques : évaluation de l'homogénéité des options. 2015.

  10. Wei Wang.
    Unsupervised Information Extraction From Text – Extraction and Clustering of Relations Between Entities. 2013.

Responsable

Annelies BRAFFORT
Directrice de Recherche CNRS

Permanents

Michael FILHOL
Chargé de recherche
Sahar GHANNAY
Maître de Conférences
Cyril GROUIN
Ingénieur d'études
Thierry HAMON
Maître de Conférences
Gabriel ILLOUZ
Maître de Conférences
Thomas LAVERGNE
Maître de Conférences
Anne-Laure LIGOZAT
Maître de Conférences
Aurelie NEVEOL
Chargée de recherche
Patrick PAROUBEK
Ingénieur de recherche
Sophie ROSSET
Directrice de Recherche CNRS
Anne VILNAT
Professeur
Pierre ZWEIGENBAUM
Directeur de recherche CNRS

Doctorants

Valentin BELISSEN
Alexandra BENAMAR
Félix BIGAND
Hugo BOULANGER
Valentin CARPENTIER
Oralie CATTAN
Juan Manuel CORIA
Hicham EL BOUKKOURI
Léo GALMANT
Marion KACZMAREK
Corentin MASSON
Nicolas PARIS
Tsanta Famenontsoa RANDRIATSITOHAINA
Léon-Paul SCHAUB
Yuming ZHAI

CDD

Lucie GIANOLA
Sadaf NAWAZ
Yuming ZHAI

Données extraites de l'annuaire du CNRS le 10/08/2020

Sous-catégories

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Rapport scientifique

 

Le LIMSI en chiffres

7 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 

Paris-Saclay nouvelle fenêtre


Logo DataIA

 

© 2017 LIMSI CNRS