Le système du CLIPS
Le système étiqueté CLIPS dans la présentation
des résultats est le
système PILAF de
l'équipe TRILAN du laboratoire
CLIPS. En suivant les liens
précédents, on pourra essayer le système ou
obtenir une bilbiographie , je me contenterai ici de préciser quelques
points pertinents dans le contexte de l'évaluation GRACE.
Le système PILAF
Le système PILAF
(Procédures Interactives Linguistiques Appliquées au
Français) est un système d'analyse et de génération
morphologiques, ce n'est pas à proprement parler un étiqueteur.
En particulier, il ne fait pas du tout de désambiguïsation lexicale
et fournit donc toutes les solutions possibles pour un segment donné.
PILAF possède deux caractéristiques intéressantes :
-
il utilise les mêmes données en analyse et en
génération
(données basées sur une grammaire à validations et
saturations) ;
-
il permet la modification interactive des données manipulées,
il est donc très agréable à utiliser en phase de
développement d'une grammaire.
En analyse, la segmentation est réalisée par la grammaire
elle-même, le moteur se contentant de remettre l'automate dans
l'état
initial après chaque segment reconnu afin de parcourir tout le texte.
Cette méthode permet de ne pas considérer l'espace comme un
séparateur et donc de reconnaître des locutions comme "au fur
et à mesure" comme un seul segment. Par contre, PILAF n'autorise qu'une
segmentation par chaîne, rendant impossible de reconnaître "bien
que" par exemple, comme une conjonction atomique ou comme deux segments
séparés. Cette méthode de segmentation oblige
également à un prétraitement peu propice à la
prise en compte d'exceptions. On l'aura compris, c'est sur les points
requérant une grande finesse de segmentation que PILAF a fait le plus
d'erreurs.
Analyse des erreurs dans l'évaluation GRACE
Nous avons analysé assez grossièrement les erreurs commises
par PILAF lors de l'évaluation GRACE, sur 6500 erreurs au total :
-
3133 erreurs correspondent à des noms propres non reconnus ;
-
785 erreurs correspondent à des mots reconnus par PILAF avec
une catégorie différente : (115 e, 90 problèmes
de segmentation autour du tiret, 94 millions ou milliards
(Ncmp
au lieu de Nkmp), 77 % (F au lieu de Ncmp), 88 de (Sp au lieu
de Da), 50 tout, toute (Ai au lieu de Di), 89 donc (Cc au
lieu
de Rgp), 34 quel, quelle (Ai au lieu de Dt), 148 erreurs diverses
(erreurs d'indexation, emplois spéciaux, dates : 80/90, ...)
-
2582 mots sont non reconnus par PILAF et nous les avons analysés
plus
en détail (sans cette fois retenir les volumes).
Parmi les mots non reconnus par PILAF, nous avons distingué les
catégories suivantes :
-
mots inconnus à indexer, correspondant à des manques
dans
le dictionnaire de PILAF ou à des erreurs dans la grammaire :
reprendre, bavarois, délibératrice,
euros, privatiser, showbiz, gay,
zippées, trithérapie, à
grand'peine
[à grand-peine est indexé], ou à des erreurs
dans la grammaire : fûmes (alors qu'il est engendré),
goëlette [goélette est indexée ] ... Au
total 121 mots, correspondant à de nombreuses occurrences, car il
s'agit parfois de mots assez courants.
-
mots inconnus que nous hésiterions à indexer : bitord,
namaquois, confabuler, Länder, [ et ]
comme ponctuation (mots effacés dans les corpus du Monde),
profitabilité, ultramoulante, nanofiltration,
débureaucratiser, ... au total 89 mots.
-
sigles : SNCF, TGV, BTP, AGF, ONG,
TGV-Nord, TGV-Est, ... (26 différents) ;
-
mots inconnus relevant de grammaires locales : heures (16h, 1 h
10 min, ...), chiffres romains (IIIe, X, ier,
...),
liaisons par voie ferrées ou autre (Bensdorff-Sarrebourg,
Rhin-Rhône, ...), composés spéciaux
(israélo-palestiniennes, franco-allemandes,
mi-libéral, mi-médecine,
anti-Juppé,
terre-air, air-air, nord-indienne, ...), chiffres avec
unités ou unités isolées (438p, 139F,
m2), intervalles de chiffres : scores de tennis (7-6, 9-7,
7-5)
ou dates (22-24 août, 2000-2002).
-
clitiques, non gérées dans PILAF (ai-je,
voulez-vous, consiste-t-il, va-t-en, ce
cri-là, ce jour-là, ...) et très
fréquents
dans les corpus.
-
mots composés, très rares dans le dictionnaire de PILAF :
contre-offensive, sud-est, contre-ut,
quartier-général, moyens-courriers,
eau-de-vie, gris-sel, ...
-
ellisions : Mlle, M., vous v'là, etc.,
pro, pros, intro, certif', ...
-
problèmes de segmentation dûs principalement au tiret d'incise
qui n'est pas distingué du tiret ordinaire dans les corpus (nombre
d'erreurs non négligeable).
-
divers : erreurs dans les corpus eux-mêmes, mots en majuscules non
accentués, cas très particuliers (je te f.... à la
mer, 5 avrili 836, ``thatchérisme à la
française'', le "ni-ni"),
Contact : Damien Genthial