|
Paris time: 02h34
|
Les Fiches d'Identité des Systèmes
GREYC
- Jeu de catégories : distributionnel (50 catégories + attributs : genre, nombre, personne)
- Lexique partiel (1 valeur par défaut pour les mots grammaticaux) + guesser ;
les déductions contextuelles modifient ou complètent ces valeurs initiales
- Catégories et attributs peuvent être modifiés indépendamment par une
déduction contextuelle (propagation de l'accord par exemple)
- Analyseur complet (déductions contextuelles --> limites de syntagmes simples + mise en relation des syntagmes)
--> étiquettes des tokens en fin de processus
- Ajout en bout de chaîne d'une fonction de transfert vers la tokenisation et le jeu d'étiquettes de GRACE
(d'où une table de correspondance "identité")
- Pour de plus amples informations, lire notre article à TALN'98 : Regards théoriques sur le "tagging"
http://www.info.unicaen.fr/~jvergne/publications.html
Brill-INaLF
Ce système est une version de l'étiqueteur d'E. Brill entraîné à l'INaLF, sur les textes de la base
FRANTEXT.
Un préprocesseur a été ajouté au système original pour effectuer
un séquencement en mots et en phrases des données, pour que
celles-ci puissent être traitées par le système de Brill.
Le contenu linguistique des informations apprises par le système
de Brill a été revu et optimisé par Josette Lecomte qui a défini
le jeu d'étiquettes pour le français.
Le Lexique utilisé lors de l'étiquetage est plus riche que celui qui a été "appris" originellement par le système.
Le jeu d'étiquettes a été remanié entre les "essais" et les "tests", en particulier par un ajout de la notion de Nombre grammatical.
Brill-Limsi
Ce système est une version de l'étiqueteur d'E. Brill entraîné au Limsi sur les textes du corpus du
journal Le Monde par Stéphane Ferrari
(qui a définit un jeu d'étiquettes un peu plus fin que celui du système Brill-INaLF).
La base de règles apprises par le système a été éditée.
Un préprocesseur a été ajouté au système original pour effectuer
le séquencement en mots et en phrases des données pour que celles-ci puissent être traitées par
le système
de Brill.
Lexical
Ce système se contente de faire un simple accès;s au dicitionaire MULTEXT-GRACE,
si la forme n'y est pas trouvée elle reçoit l'étiquette des mots inconnus. Notez que les signes de ponctuation sont
systématiquement étiquetés comme des ponctuations quel que soit leur contexte.
Aleat
Refère à un système qui raffine l'approche Lexical en appliquant les heuristiques suggérées par J. Vergnes (GREYC):
- en cas d'ambiguité Nom/Verbe, choisir Nom,
- en cas d'ambiguité Adjectif/Verbe, choisir Adjectif,
- en cas d'ambiguité Adverbe/Nom, choisir Adverbe,
- en cas d'ambiguité Nom/Adjectif, choisir Nom,
- en cas d'ambiguité Déterminant/Pronom, choisir Déterminant,
- autrement choisir au hasard une étiquette parmi celles proposées.
Les autres descriptions seront bientôt disponibles...
Contact: Patrick Paroubek, pap@limsi.fr Dernière mise à jour: 27 Avril 1999
[GRACE home page]
[LIMSI home page]
|