"Inférence grammaticale : approches formelles et heuristiques"

Séminaire CHM du LIMSI
3-12-99



modèles de langage

Pierre Dupont

      Cet exposé présente un état de l'art sur des techniques d'apprentissage symbolique à partir de données séquentielles.

En particulier, on s'intéresse à des données qui peuvent être représentées par des séquences de longueur variable de symboles discrets. Dans ce contexte, l'inférence grammaticale a pour objet de découvrir un langage, c'est-à-dire un ensemble de séquences ayant des structures communes. Ces structures sont modélisées par le biais d'une grammaire formelle.

L'objet de l'apprentissage est donc l'induction d'une grammaire formelle représentant un langage à partir d'exemples (et éventuellement de contre-exemples) de ce langage. Après une brève présentation de deux cadres théoriques définissant l'objet de l'apprentissage, on passera en revue un certain nombre d'algorithmes existants qui peuvent être caracterisés selon différents axes :

- le type des données d'apprentissage (disponibilité ou non de contre-exemples)

- la classe de langages qu'ils visent à inférer.

- leur caractère formel (algorithmes dont la convergence est démontrable) ou heuristique

L'exposé durera environ une heure et pourrait se conclure par une discussion ouverte sur les avantages et les limitations actuelles de ce genre de techniques pour définir des modèles de langage pour la reconnaissance de parole.