|
|
|
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
|
[2000-2001] [2001-2002] [2002-2003] [2003-2004] [2004-2005] [2005-2006] [2006-2007] [2007-2008] [2008-2009] [2009-2010]
24 juillet 2007 (14h30)Apprentissage analogique pour la traduction d'entités inconnuesPhilippe Langlais (RALI, Université de Montréal)La présence de mots inconnus dans les applications langagières représente un défi de taille bien connu auquel n'échappe pas la traduction automatique. Les systèmes professionnels de traduction offrent à cet effet à leurs utilisateurs la possibilité d'enrichir un lexique de base avec de nouvelles entrées. Récemment, Stroppa et Yvon (2005) et (2006) démontraient l'intérêt du raisonnement par analogie pour l'analyse morphologique d'une langue. Dans l'étude présentée ici, nous montrons que le raisonnement par analogie offre également une réponse adaptée au problème de la traduction d'entités (mots ou séquences de mots) inconnues.
Référence : TALN 2007
10 juillet 2007 (14h30)Analyse et structuration de textes techniques -- le cas des guides de bonnes pratiquesThierry Poibeau et Amanda Bouffier (LIPN)L'exposé portera sur l'analyse discursive de textes longs, en vue de remplir automatiquement des schémas pré-définis (DTD XML) rendant compte de l'organisation du texte brut. Nous partons du principe que les documents techniques sont le plus souvent parcourus de façon non linéaire, en fonction de besoins précis. La structure matérielle du texte, sa disposition et la présence de marqueurs discursifs guident cette lecture orientée par le but, en mettant en évidence des blocs informationnels homogènes et pertinents.
L'étude porte sur des textes du domaine médical, les "guides de bonnes pratiques" (GBP). Je présenterai un système visant l'analyse et la transformation des GBP dans un format XML, ainsi qu'une évaluation et des perspectives permezttant d'envisager la dérivation de formes non textuelles à partir du texte d'origine.
Cet exposé est largement fondé sur le travail de thèse d'Amanda Bouffier, au Laboratoire d'Informatique de Paris-Nord.
This talk describes a system capable of semi-automatically filling an XML template from free texts in the clinical domain (practice guidelines). The XML template includes semantic information not explicitly encoded in the text (pairs of conditions and actions/recommendations). Therefore, there is a need to compute the exact scope of conditions over text sequences expressing the required actions. We present a system developed for this task. We show that it yields good performance when applied to the analysis of French practice guidelines.
22 mai 2007 (14h30)Regards croisés sur l'évaluationGilles Adda (TLP), Patrick Paroubek (LIR) et François Yvon (ENST)
L'exposé présentera le codage syntaxique de deux textes échantillons (un texte écrit, un texte oral en transcription ; 2200 mots) : codage et annotation syntaxique exhaustifs du texte (du mot à la 'phrase'), à partir d'une grammaire de constituants emboîtés, en catégories / fonctions / positions linéaires, assurant une 'circulation' complète, permettant toutes les requêtes sur la syntaxe et le lexique (en combinant dépendance et linéarité), et ouvrant la voie à d'autres codages, sémantiques ou textuels. Réalisation sous Access.
13 février 2007 (14h30)Segmentation thématique de textes : voies d'amélioration et applicationsOlivier Ferret (CEA - LIST)Le travail de Hearst au début des années 90 a entraîné à sa suite le développement de nombreuses méthodes de segmentation thématique de textes fondées sur le contenu et plus précisément, sur la récurrence lexicale. L'hypothèse sous-jacente à ces méthodes est que la proximité thématique de deux segments de texte est directement liée au nombre de mots qu'ils partagent. Cette hypothèse, quoique présentant une certaine efficacité, se heurte au problème de la variabilité d'expression des concepts. Dans cette présentation, je proposerai deux solutions pour faire face à ce problème. La première est de nature endogène. Elle exploite la similarité distributionnelle des mots au sein des documents pour en découvrir les thèmes. Ces thèmes sont ensuite utilisés pour faciliter l'identification des similarités thématiques entre segments de texte. La seconde réalise le même but en faisant appel à une ressource externe, en l'occurrence un réseau de cooccurrences lexicales construit à partir d'un large corpus. Je concluerai en illustrant l'intérêt de la segmentation thématique, et plus généralement de l'analyse thématique, pour le résumé automatique de textes.
23 janvier 2007 (14h30)Ce que nous faisons, les uns, les autresles membres du groupe LIR
9 janvier 2007 (14h30)Retours d'écoles d'étéVincent Barbier, Anne Garcia-Fernandez, Kevin Séjourné (LIR)
28 novembre 2006 (15h)Evaluation d'un système de questions-réponsesSarra El Ayari (LIR)Transparents (PDF)
28 novembre 2006 (14h30)Questions-réponses et variation sémantiqueVincent Barbier (LIR)
14 novembre 2006 (14h30)Les campagnes DEFT05 et DEFT06 (DEfi Fouilles de Textes)Jérôme Azé et Thomas Heitz (LRI)Thématiques : attribution d'auteur (2005), segmentation thématique (2006).
Participation : 26 (respectivement 22) personnes présentes pour 10 (7) équipes participantes lors de DEFT 2005 (2006)
Plan de l'exposé : Naissance du défi, préparation des corpus, organisation du défi, résultats des participants.
Transparents (PDF)
24 octobre 2006 (14h30)Décrire un genre en corpus : l'article scientifique de revue linguistiqueCéline Poudat (université d'Orléans)A partir de l'analyse quantitative d'un corpus de 224 articles de linguistique en français, on se propose d'aboutir à une définition opérationnelle du genre en exploitant les méthodes du traitement automatique des langues et des statistiques textuelles. La hiérarchie des variables typologiques actualisées est établie par cycles de validation, au moyen d'hypothèses contrastives qui servent d'argument et d'épreuve. Les indices du genre sont construits à un double niveau : morphosyntaxique, à partir d'un système de descripteurs original et adapté, et textuel, en fonction des composantes et des thématiques. Cette partition est méthodologique, l'interaction étant constante dans la structuration du texte.
Après une description d'ensemble du corpus, une recherche contrastive met en évidence des principes de variation extrinsèques : incidence du style d'auteur, confrontation de l'article à d'autres formes de genres scientifiques, variations d'un domaine à l'autre et incidence de la langue choisie.
8 octobre 2006 (14h30)Utilisation d'une chaine de question-réponse pour l'interaction par le dialogueKevin Séjourné (LIR)Transparents (Open Office Impress)