L I M S I - C N R S

LIMSI Spoken Language Processing Group (TLP)

Laboratory
CNRS home page
LIMSI home page
LIMSI TLP Group

Coordination GRACE:
Limsi
LIMSI-logo
INaLF
INaLF-logo

( ENST )
ENST-logo
EPFL
LIA-EPFL-logo

Liens Évaluation:
ELSE


Paris time: 02h34


Les Fiches d'Identité des Systèmes

GREYC

  • Jeu de catégories : distributionnel (50 catégories + attributs : genre, nombre, personne)
  • Lexique partiel (1 valeur par défaut pour les mots grammaticaux) + guesser ; les déductions contextuelles modifient ou complètent ces valeurs initiales
  • Catégories et attributs peuvent être modifiés indépendamment par une déduction contextuelle (propagation de l'accord par exemple)
  • Analyseur complet (déductions contextuelles --> limites de syntagmes simples + mise en relation des syntagmes) --> étiquettes des tokens en fin de processus
  • Ajout en bout de chaîne d'une fonction de transfert vers la tokenisation et le jeu d'étiquettes de GRACE (d'où une table de correspondance "identité")
  • Pour de plus amples informations, lire notre article à TALN'98 : Regards théoriques sur le "tagging" http://www.info.unicaen.fr/~jvergne/publications.html

Brill-INaLF
Ce système est une version de l'étiqueteur d'E. Brill entraîné à l'INaLF, sur les textes de la base FRANTEXT.
Un préprocesseur a été ajouté au système original pour effectuer un séquencement en mots et en phrases des données, pour que celles-ci puissent être traitées par le système de Brill.
Le contenu linguistique des informations apprises par le système de Brill a été revu et optimisé par Josette Lecomte qui a défini le jeu d'étiquettes pour le français.
Le Lexique utilisé lors de l'étiquetage est plus riche que celui qui a été "appris" originellement par le système.
Le jeu d'étiquettes a été remanié entre les "essais" et les "tests", en particulier par un ajout de la notion de Nombre grammatical.

Brill-Limsi

Ce système est une version de l'étiqueteur d'E. Brill entraîné au Limsi sur les textes du corpus du journal Le Monde par Stéphane Ferrari (qui a définit un jeu d'étiquettes un peu plus fin que celui du système Brill-INaLF). La base de règles apprises par le système a été éditée. Un préprocesseur a été ajouté au système original pour effectuer le séquencement en mots et en phrases des données pour que celles-ci puissent être traitées par le système de Brill.

Lexical

Ce système se contente de faire un simple accès;s au dicitionaire MULTEXT-GRACE, si la forme n'y est pas trouvée elle reçoit l'étiquette des mots inconnus. Notez que les signes de ponctuation sont systématiquement étiquetés comme des ponctuations quel que soit leur contexte.

Aleat

Refère à un système qui raffine l'approche Lexical en appliquant les heuristiques suggérées par J. Vergnes (GREYC):

  1. en cas d'ambiguité Nom/Verbe, choisir Nom,
  2. en cas d'ambiguité Adjectif/Verbe, choisir Adjectif,
  3. en cas d'ambiguité Adverbe/Nom, choisir Adverbe,
  4. en cas d'ambiguité Nom/Adjectif, choisir Nom,
  5. en cas d'ambiguité Déterminant/Pronom, choisir Déterminant,
  6. autrement choisir au hasard une étiquette parmi celles proposées.

Les autres descriptions seront bientôt disponibles...


Contact: Patrick Paroubek, pap@limsi.fr Dernière mise à jour: 27 Avril 1999


[GRACE home page] [LIMSI home page]