"Analyse par fragments pour les systèmes
d'extraction d'information"
Maria Teresa PAZIENZA, Université de Rome
Séminaire CHM du LIMSI
21-12-98
Pour mettre en oeuvre des grandes bases de données de taille croissante, et leurs fonctionnalités
linguistiques, nous avons besoin de logiciels efficaces en extraction d'information. L'évaluation
d'un tel système dépend, de façon cruciale, de celle de son analyseur.
Plusieurs systèmes ont remplacé, avec succès, l'analyseur en question par des dispositifs plus
superficiels, effectuant une reconnaissance. Mais l'absence de traitement grammatical, pour des
langues plus complexes que l'anglais, devient alors un handicap.
Nous avons donc développé un logiciel de reconnaissance syntaxique, dont le but principal est de
saisir l'information grammaticale, qui joue un rôle essentiel dans les inférences linguistiques et
autres. Son architecture, innovante, exploite deux grands principes : la lexicalisation et la
stratification de l'analyse. Le premier signifie que l'analyse est guidée par une catégorisation
des verbes. Le second veut dire que l'analyse se fait par étapes. On commence par reconnaître des
fragments (chunks) et on remonte vers les propositions, puis vers les dépendances entre
fragments. Les ambiguïtés sont ainsi, lorsque c'est possible, éliminées au plus bas niveau. Un tel
système est robuste face aux constructions non-grammaticales.
En sortie, on trouve (i) les fragments désambiguïsés (ii) la hiérarchie des propositions de la
phrase (iii) les dépendances grammaticales entre fragments.