un logiciel de reconnaissance
"Analyse par fragments pour les systèmes d'extraction d'information"

Maria Teresa PAZIENZA, Université de Rome




Séminaire CHM du LIMSI
21-12-98




Pour mettre en oeuvre des grandes bases de données de taille croissante, et leurs fonctionnalités linguistiques, nous avons besoin de logiciels efficaces en extraction d'information. L'évaluation d'un tel système dépend, de façon cruciale, de celle de son analyseur. Plusieurs systèmes ont remplacé, avec succès, l'analyseur en question par des dispositifs plus superficiels, effectuant une reconnaissance. Mais l'absence de traitement grammatical, pour des langues plus complexes que l'anglais, devient alors un handicap. Nous avons donc développé un logiciel de reconnaissance syntaxique, dont le but principal est de saisir l'information grammaticale, qui joue un rôle essentiel dans les inférences linguistiques et autres. Son architecture, innovante, exploite deux grands principes : la lexicalisation et la stratification de l'analyse. Le premier signifie que l'analyse est guidée par une catégorisation des verbes. Le second veut dire que l'analyse se fait par étapes. On commence par reconnaître des fragments (chunks) et on remonte vers les propositions, puis vers les dépendances entre fragments. Les ambiguïtés sont ainsi, lorsque c'est possible, éliminées au plus bas niveau. Un tel système est robuste face aux constructions non-grammaticales. En sortie, on trouve (i) les fragments désambiguïsés (ii) la hiérarchie des propositions de la phrase (iii) les dépendances grammaticales entre fragments.