Rechercher  


INS2I INSIS Annuaire LIMSI
   
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
Logo LIMSI
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

[ Dérouler vers : Contenu, Menus, Bannière, Aide à la navigation. ]

Groupe Information, Langue Ecrite et Signée (ILES)

LIMSI, groupe ILES : Séminaires 2008-2009       logo ILES



Séminaires par année

[2000-2001] [2001-2002] [2002-2003] [2003-2004] [2004-2005] [2005-2006] [2006-2007] [2007-2008] [2008-2009] [2009-2010]


Séminaires 2006-2007


24 juillet 2007 (14h30)
Apprentissage analogique pour la traduction d'entités inconnues
Philippe Langlais (RALI, Université de Montréal)

La présence de mots inconnus dans les applications langagières représente un défi de taille bien connu auquel n'échappe pas la traduction automatique. Les systèmes professionnels de traduction offrent à cet effet à leurs utilisateurs la possibilité d'enrichir un lexique de base avec de nouvelles entrées. Récemment, Stroppa et Yvon (2005) et (2006) démontraient l'intérêt du raisonnement par analogie pour l'analyse morphologique d'une langue. Dans l'étude présentée ici, nous montrons que le raisonnement par analogie offre également une réponse adaptée au problème de la traduction d'entités (mots ou séquences de mots) inconnues.

Référence : TALN 2007


10 juillet 2007 (14h30)
Analyse et structuration de textes techniques -- le cas des guides de bonnes pratiques
Thierry Poibeau et Amanda Bouffier (LIPN)

L'exposé portera sur l'analyse discursive de textes longs, en vue de remplir automatiquement des schémas pré-définis (DTD XML) rendant compte de l'organisation du texte brut. Nous partons du principe que les documents techniques sont le plus souvent parcourus de façon non linéaire, en fonction de besoins précis. La structure matérielle du texte, sa disposition et la présence de marqueurs discursifs guident cette lecture orientée par le but, en mettant en évidence des blocs informationnels homogènes et pertinents.

L'étude porte sur des textes du domaine médical, les "guides de bonnes pratiques" (GBP). Je présenterai un système visant l'analyse et la transformation des GBP dans un format XML, ainsi qu'une évaluation et des perspectives permezttant d'envisager la dérivation de formes non textuelles à partir du texte d'origine.

Cet exposé est largement fondé sur le travail de thèse d'Amanda Bouffier, au Laboratoire d'Informatique de Paris-Nord.

This talk describes a system capable of semi-automatically filling an XML template from free texts in the clinical domain (practice guidelines). The XML template includes semantic information not explicitly encoded in the text (pairs of conditions and actions/recommendations). Therefore, there is a need to compute the exact scope of conditions over text sequences expressing the required actions. We present a system developed for this task. We show that it yields good performance when applied to the analysis of French practice guidelines.


22 mai 2007 (14h30)
Regards croisés sur l'évaluation
Gilles Adda (TLP), Patrick Paroubek (LIR) et François Yvon (ENST)


27 mars 2007 (14h30)
'AnaTexte' : un prototype de base de données syntaxiques
Pierre Le Goffic (université Paris III)

L'exposé présentera le codage syntaxique de deux textes échantillons (un texte écrit, un texte oral en transcription ; 2200 mots) : codage et annotation syntaxique exhaustifs du texte (du mot à la 'phrase'), à partir d'une grammaire de constituants emboîtés, en catégories / fonctions / positions linéaires, assurant une 'circulation' complète, permettant toutes les requêtes sur la syntaxe et le lexique (en combinant dépendance et linéarité), et ouvrant la voie à d'autres codages, sémantiques ou textuels. Réalisation sous Access.


13 février 2007 (14h30)
Segmentation thématique de textes : voies d'amélioration et applications
Olivier Ferret (CEA - LIST)

Le travail de Hearst au début des années 90 a entraîné à sa suite le développement de nombreuses méthodes de segmentation thématique de textes fondées sur le contenu et plus précisément, sur la récurrence lexicale. L'hypothèse sous-jacente à ces méthodes est que la proximité thématique de deux segments de texte est directement liée au nombre de mots qu'ils partagent. Cette hypothèse, quoique présentant une certaine efficacité, se heurte au problème de la variabilité d'expression des concepts. Dans cette présentation, je proposerai deux solutions pour faire face à ce problème. La première est de nature endogène. Elle exploite la similarité distributionnelle des mots au sein des documents pour en découvrir les thèmes. Ces thèmes sont ensuite utilisés pour faciliter l'identification des similarités thématiques entre segments de texte. La seconde réalise le même but en faisant appel à une ressource externe, en l'occurrence un réseau de cooccurrences lexicales construit à partir d'un large corpus. Je concluerai en illustrant l'intérêt de la segmentation thématique, et plus généralement de l'analyse thématique, pour le résumé automatique de textes.


23 janvier 2007 (14h30)
Ce que nous faisons, les uns, les autres
les membres du groupe LIR

9 janvier 2007 (14h30)
Retours d'écoles d'été
Vincent Barbier, Anne Garcia-Fernandez, Kevin Séjourné (LIR)

28 novembre 2006 (15h)
Evaluation d'un système de questions-réponses
Sarra El Ayari (LIR)
Transparents (PDF)

28 novembre 2006 (14h30)
Questions-réponses et variation sémantique
Vincent Barbier (LIR)

14 novembre 2006 (14h30)
Les campagnes DEFT05 et DEFT06 (DEfi Fouilles de Textes)
Jérôme Azé et Thomas Heitz (LRI)

Thématiques : attribution d'auteur (2005), segmentation thématique (2006).

Participation : 26 (respectivement 22) personnes présentes pour 10 (7) équipes participantes lors de DEFT 2005 (2006)

Plan de l'exposé : Naissance du défi, préparation des corpus, organisation du défi, résultats des participants.

Transparents (PDF)


24 octobre 2006 (14h30)
Décrire un genre en corpus : l'article scientifique de revue linguistique
Céline Poudat (université d'Orléans)

A partir de l'analyse quantitative d'un corpus de 224 articles de linguistique en français, on se propose d'aboutir à une définition opérationnelle du genre en exploitant les méthodes du traitement automatique des langues et des statistiques textuelles. La hiérarchie des variables typologiques actualisées est établie par cycles de validation, au moyen d'hypothèses contrastives qui servent d'argument et d'épreuve. Les indices du genre sont construits à un double niveau : morphosyntaxique, à partir d'un système de descripteurs original et adapté, et textuel, en fonction des composantes et des thématiques. Cette partition est méthodologique, l'interaction étant constante dans la structuration du texte.

Après une description d'ensemble du corpus, une recherche contrastive met en évidence des principes de variation extrinsèques : incidence du style d'auteur, confrontation de l'article à d'autres formes de genres scientifiques, variations d'un domaine à l'autre et incidence de la langue choisie.


8 octobre 2006 (14h30)
Utilisation d'une chaine de question-réponse pour l'interaction par le dialogue
Kevin Séjourné (LIR)

Transparents (Open Office Impress)


Dernière mise à jour : 25/5/2009
Pour tout renseignement, écrire à Pierre Zweigenbaum (pz à limsi.fr)

[ Dérouler vers : Contenu, Menus, Bannière, Aide à la navigation. ]

[ Dérouler vers : Contenu, Menus, Bannière, Aide à la navigation. ]