Fouille de données et corpus de textes

Séminaire CHM du LIMSI
18-5-99



par Patrick Gallinari (LIP6, Université Paris 6)


et dans les albums





        Le développement du web a fait du traitement des données textuelles un enjeu extrêmement important, tout en créant de nouveaux besoins et de nouvelles problématiques dans ce domaine. C'est dans ce créneau que la communauté de l'apprentissage développe depuis quelques années ses outils pour l'analyse de texte.
        Dans l'exposé, après une introduction au domaine et à ces nouvelles problématiques, Patrick Gallinari présentera l'utilisation de techniques d'apprentissage numérique pour des applications qui se situent à la frontière entre la recherche documentaire et l'extraction d'information. Il montrera comment des modèles dynamiques permettent de réaliser des tâches simples d'extraction d'information de surface et de catégorisation dans les textes.