|
|
|
Evénements impossibles en modélisation statistique du langage. Mots-clés : modélisation statistique du langage, reconnaissance automatique de la parole, n-grammes distants, modèles de séquences, événements impossibles.
David Langlois
Résumé Un modèle statistique de langage, n'utilisant que des informations de l'historique bien précises (suites de n mots par exemple, suite de n classes, ou encore fréquences de mots dans l'historique) ne prend en compte qu'une petite partie des contraintes langagières. Il faut donc combiner plusieurs modèles de langage pour recouvrir une plus grande partie de la langue. Les méthodes de combinaison linéaire classiques opérent une combinaison "moyenne" des modèles sans tenir compte des forces et faiblesses de chacun des modèles selon le contexte (historique). Même si on utilise des classes d'historiques pour affiner la combinaison, ces classes regroupent un grand nombre d'historiques linguistiquement très différents les uns des autres. Par ailleurs, elles sont construites sur des critères non nécessairement représentatifs des critères d'évaluation d'un modèle statistique de langage. Je propose donc, plutôt que de systématiquement combiner linéairement tous les modèles de langage pour obtenir un modèle de langage réunissant de manière moyenne les qualités de chacun, de sélectionner le plus efficace en fonction du contexte linguistique ; j'ai appelé ce principe le Principe de Sélection par l'Historique. Je développe une mesure de la capacité de prédiction du modèle de langage en fonction de l'historique et l'applique à la comparaison de plusieurs modèles de langage de type n-grammes distants améliorant ainsi les performances de la combinaison linéaire de 5.4% en terme de perplexité. La comparaison de plusieurs modèles de n-grammes distants permet aussi de déceler des relations distantes fortes entre les mots et ainsi de mettre à jour des séquences de mots pouvant être considérées comme de nouvelles unités du lexique, ce qui améliore un modèle de référence de 21% en terme de perplexité et diminue le taux d'erreur d'un système de reconnaissance grand vocabulaire de 12%. Une autre contribution de ce travail est le recensement automatique d'événements (suite de n mots par exemple) impossibles dans la langue française. Cette partie du travail répond au constat que les modèles de langage statistiques classiques ne prennent pas en compte le fait qu'un événement puisse être impossible (en effet, une probabilité non nulle est associée à tout événement). J'ai ainsi recensé 60 millions de bigrammes impossibles pour un vocabulaire de 20 000 mots, en utilisant des méthodes issues de la théorie de l'information sur des sources d'informations de type classification de mots ou de type phonologique. Je terminerai en donnant les grandes lignes de mes travaux de l'année actuelle ainsi qu'une présentation de mon projet de recherche. |
|
|
Contacts :Patrick Paroubek & William Turner Dernière mise à jour : 26 Février 2003 |