Le système du CLIPS

Le système étiqueté CLIPS dans la présentation des résultats est le système PILAF de l'équipe TRILAN du laboratoire CLIPS. En suivant les liens précédents, on  pourra essayer le système ou obtenir une bilbiographie , je me contenterai ici de préciser quelques points pertinents dans le contexte de l'évaluation GRACE.

Le système PILAF

Le système PILAF (Procédures Interactives Linguistiques Appliquées au Français) est un système d'analyse et de génération morphologiques, ce n'est pas à proprement parler un étiqueteur. En particulier, il ne fait pas du tout de désambiguïsation lexicale et fournit donc toutes les solutions possibles pour un segment donné.

PILAF possède deux caractéristiques intéressantes :

En analyse, la segmentation est réalisée par la grammaire elle-même, le moteur se contentant de remettre l'automate dans l'état initial après chaque segment reconnu afin de parcourir tout le texte. Cette méthode permet de ne pas considérer l'espace comme un séparateur et donc de reconnaître des locutions comme "au fur et à mesure" comme un seul segment. Par contre, PILAF n'autorise qu'une segmentation par chaîne, rendant impossible de reconnaître "bien que" par exemple, comme une conjonction atomique ou comme deux segments séparés. Cette méthode de segmentation oblige également à un prétraitement peu propice à la prise en compte d'exceptions. On l'aura compris, c'est sur les points requérant une grande finesse de segmentation que PILAF a fait le plus d'erreurs.

Analyse des erreurs dans l'évaluation GRACE

Nous avons analysé assez grossièrement les erreurs commises par PILAF lors de l'évaluation GRACE, sur 6500 erreurs au total :

Parmi les mots non reconnus par PILAF, nous avons distingué les catégories suivantes :


Contact : Damien Genthial