|
|
|
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
|
[2000-2001] [2001-2002] [2002-2003] [2003-2004] [2004-2005] [2005-2006] [2006-2007] [2007-2008] [2008-2009] [2009-2010]
24 juin 2008 (14h30)
Recherche d'expressions équivalentes en corpus
Louise Deléger (INSERM U872 Eq. 20)
On peut aborder la recherche d'expressions équivalentes en corpus
de diverses façons, selon que l'on s'intéresse à la recherche de
traductions (approche multilingue) ou à la recherche de
paraphrases (approche monolingue), ou encore que l'on travaille à
partir de corpus parallèles ou de corpus comparables. Nous
présentons nos travaux sur deux approches: une approche
multilingue où l'on recherche des traductions de termes médicaux
grâce à une méthode d'alignement d'un corpus parallèle
anglais-français ; et une approche monolingue où l'on
recherche des paraphrases dans des corpus comparables médicaux
spécialisés et grand public.
3 juin 2008 (14h30)
Antelope : une plateforme de traitement linguistique permettant
l'extraction de connaissances
François-Régis Chaumartin (ALPAGE : INRIA & U Paris 7)
La plateforme de traitement linguistique Antelope, inspirée de la
Théorie Sens-Texte, permet l'analyse syntaxique et sémantique de
textes sur des corpus de volume important. Antelope intègre
plusieurs composants préexistants (pour l'analyse syntaxique)
ainsi que des données linguistiques de large couverture provenant
de différentes sources. Un effort d'intégration permet néanmoins
d'offrir une plateforme homogène. Notre contribution directe
concerne l'ajout de composants d'analyse sémantique, et la
formalisation d'un modèle complet d'analyse de documents.
Nous présenterons Antelope en la positionnant par rapport à
d'autres plateformes, puis un projet en cours visant à effectuer
l'extraction de connaissances encyclopédiques.
1er avril 2008 (14h30)
Reasoning with Incomplete Data in Restricted Domain QA systems
Sivaji Bandyopadhyay (Computer Science & Engineering Department, Jadavpur University)
The input text query is analyzed by a shallow parser to obtain
keyword and information chunks for identifying the topic of the
query and related information and subsequent generation of the SQL
statement. The system can detect the presence of incomplete
information in the input and predict user intentions to make
recommendations based on user model and domain ontology in order
to get user response for completing the query. It can enter into a
dialogue with the user and can handle elliptical queries. The
answer generation process fills slots in query topic specific
answer templates using data retrieved from the database. The
system has been developed in the Indian Railways Information
domain for accepting Telugu text inputs and preliminary evaluation
has been carried out.
12 février 2008 (14h30)Un générateur d'exercices pour faciliter l'acquisition d'aisance (fluidité) dans l'expression verbaleMichael Zock (LIF, Marseille)Si l'adage « pratice makes perfect » est quelque peu exagéré, il contient tout de même une certaine vérité : une bonne pratique régulière donne de l'aisance ou du confort, permettant d'envisager l'exécution des tâches complexes avec une certaine paix. Certes, la pratique ne rend pas intelligent, mais la tranquillité d'esprit qu'elle apporte permet de venir à bout de problèmes complexes, comme celui de la production verbale, qui suppose l'exécution de nombreuses tâches en très peu de temps : choix de contenus, de mots et de structures correspondants, articulation.
Nous nous intéressons ici à l'acquisition de mécanismes (automatismes, réflexes linguistiques) nécessaires pour « survivre » et pouvoir s'exprimer en temps réel (expression spontanée) dans une langue étrangère, en l'occurrence le Japonais. Afin d'aider l'apprenant, nous avons mis au point une méthode qui s'est inspirée d'une technique ancienne : les exercices structuraux (pattern-drills). Plus précisément, nous allons montrer comment grâce à l'informatique on peut remédier à beaucoup de défauts de cette méthode. Aux critiques généralement faites (rigidité, monotonie) on pourrait ajouter « manque d'authenticité, et surtout fermeture ». Or, contrairement aux livres ou aux cassettes audios, qui sont des médias fermés — rien ne pouvant être changé après impression/publication, — les ordinateurs sont un support ouvert. On peut tout changer à loisir (les mots, les structures, l'ordre et la vitesse de présentation, etc.), et c'est précisément cette possibilité que nous avons exploitée.
Apprendre à s'exprimer à un débit normal dans une language étrangère est une tâche difficile. Nous présentons ici un outil, dont la vocation est d'aider l'apprenant. Le générateur d'exercices est en cours de construction. Il sera disponible sur le web, et bien qu'il portera dans un premier temps que sur une seule langue (le japonais), la méthode est suffisamment générale pour être utilisée pour d'autres langues. D'ailleurs, à terme nous envisageons de l'étendre à l'anglais, au français, et surtout au chinois. Nous envisageons également d'y ajouter de la synthèse vocale qui peut s'avérer très précieuse notamment pour l'apprentissage de langues tonales comme le chinois, mais également pour le français où la forme écrite ne correspond pas toujours à la forme phonétique, loin de là.
22 janvier 2008 (14h30)FactSpotter: L'extraction fine d'informationFrédérique Segond (XRCE, Grenoble)Durant ce séminaire nous présenterons les activités de recherche et de développement menées au sein du groupe « Parsing et Semantic » du XRCE. Nous nous attarderons plus particulièrement sur FactSpotter, architecture générale permettant de mettre ensemble différents modules de traitement linguistique avancé pour améliorer l'extraction fine d'information dans différentes applications. Enfin nous expliquerons comment ces recherches nous ont menés a la représentation des connaissances et présenterons l'état actuel de notre réflexion dans ce domaine.
11 décembre 2007 (14h30)Xavier Tannier (LIR)Recherche d'information en langage naturel dans les documents semi-structurésLa recherche d'information dans des documents semi-structurés (écrits en XML en pratique) combine des aspects de la RI traditionnelle et ceux de l'interrogation de bases de données. Les problèmes posés par ces caractéristiques sont nombreux, que ce soit au niveau du pré-traitement des documents ou de leur interrogation. L'exposé présentera certaines des solutions spécifiques que peut apporter le traitement automatique de la langue. Il sera ainsi proposé un cadre théorique et une approche pratique pour permettre l'utilisation des techniques d'analyse textuelle en faisant abstraction de la structure, ainsi qu'une interface d'interrogation en langage naturel pour la RI dans les documents XML.
Analyse temporelleBien que l'intérêt pour les phénomènes temporels et aspectuels ne soit pas nouveau pour le traitement automatique de la langue ou l'intelligence artificielle, l'analyse temporelle des textes réels est un sujet qui a pris de l'ampleur ces dernières années. L'exposé a pour but de montrer les tenants et les aboutissants de cette problématique et de présenter le travail développé au centre de recherche de Xerox (Meylan) pour l'extraction des événements et des expressions temporelles, ainsi que pour la détection automatique de relations temporelles entre ces éléments.
27 novembre 2007 (14h30)Dérivation suffixaleReconnaissance d'entités nomméesAnne Lablanche, Amina Aziez, Jerzy Sitko (LIR)
13 novembre 2007 (14h30)Fusion de réponses numériques dans les systèmes de questions-réponsesVéronique Moriceau (LIR)
23 octobre 2007 (14h30)Un outil d'aide à la rédaction par structuration assistée des idéesSammy Debaggi (LIR ; CNAM ; SNCF)
9 octobre 2007 (14h30)Retours d'écoles d'étéAnne Garcia-Fernandez et Marie Guégan (LIR)Anne Garcia-FernandezÉcole d'été ELSNETMon intervention présentera l'école d'été ELSNET qui a eu lieu du 16 au 27 juillet dernier. Cette école thématique traitait des systèmes de dialogue avancés.
Après une brève présentation générale de l'école, je présenterai trois des cours dispensés ainsi que le thème de l'évaluation du dialogue. Le premier cours correspond à une présentation générale du domaine. Le second traite d'adaptation dans le dialogue. Et le troisième a pour thème la multimodalité dans de tels systèmes.
Marie GuéganÉcole d'été à l'université d'EssexCompte-rendu de l'école d'été à l'université d'Essex, en Angleterre (2 semaines en août). L'école d'été s'adresse à des étudiants en sociologie. Le thème était les réseaux sociaux et il n'y a eu que 2 enseignants. Je présenterai le contexte de l'école d'été et l'esprit général des méthodes d'analyse de réseaux en sociologie. Il n'y a aucun prérequis et je n'aborderai pas les cours de la 2ème semaine, plus complexes.
25 septembre 2007 (14h30)Ce que nous faisons chacun (résumé)
Les projets en cours et qui vont démarrerles membres du groupe LIR
11 septembre 2007 (14h30)De la langue aux représentations graphiquesGérard Ligozat (LIR)Cet exposé s'inscrit dans le cadre des travaux sur les liens entre représentations linguistiques et représentations graphiques. Plus précisément, il s'agit ici de donner une représentation graphique de certains des événements spatio-temporels décrits par des sources linguistiques. Un exemple typique est la représentation des récits de batailles, pour lesquels des outils ont été développés en particulier par les historiens. Parmi les difficultés rencontrées figurent le fait qu'il s'agit de processus dynamiques, et que, contrairement à ce qui est le cas pour la représentation d'itinéraires, les entités mises en jeu ne peuvent pas être réduites à un seul agent que l'on puisse assimiler à une entité ponctuelle.
Les travaux décrits ici se fondent sur des travaux antérieurs sur la représentation d'itinéraires, et utilisent des modes de représentation inspirés des « chorèmes » de Brunet. Nous décrivons une première réalisation qui permet d'engendrer des représentations de passages du livre IV de « la Guerre des Gaules » de César, et indiquons les pistes ouvertes par ce premier travail.