Fouille de données et corpus de textes
Séminaire CHM du LIMSI
18-5-99
par
Patrick Gallinari (LIP6, Université Paris 6)
Le développement du web a fait du traitement des données textuelles un
enjeu extrêmement important, tout en créant de nouveaux besoins et de
nouvelles problématiques dans ce domaine. C'est dans ce créneau que la
communauté de l'apprentissage développe depuis quelques années ses outils
pour l'analyse de texte.
Dans l'exposé, après une introduction au domaine et à ces nouvelles
problématiques, Patrick Gallinari présentera l'utilisation de techniques
d'apprentissage numérique pour des applications qui se situent à la
frontière entre la recherche documentaire et l'extraction d'information.
Il montrera comment des modèles dynamiques permettent de réaliser des
tâches simples d'extraction d'information de surface et de catégorisation
dans les textes.