SÉMINAIRE   COMMUNICATION   HOMME-MACHINE


le premier juin 1999
Limsi, bât. 508, campus d'Orsay
heure : 14 h 30
lieu : salle de conférences RdC

Séminaire CHM du LIMSI

Evaluation de systèmes de recherche d'information, comportant une fonctionnalité de filtrage,
par des mesures endogènes.


Christine MICHEL, Université Lyon-1


::::::.:::::::::.::::::::::::.::::::::::.:::::::.
::::::::::::.:::::::::..xxxxxxxxxx....:::::::::::::::.:::::::.:::::::::::::.
::::.:::::::::::::MWMWMWWMWMWMWMWMWMWMWMWMW:::::::::::::::::::::::.
::::::::::::::IIIIMWMWMWMWMWMWMWMWMWMWMWMWMWMttii:::::::::.:::::::::::.
:.::::::IIYVVXMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWxx...:::::::::.:::::::::::.
:::::IWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMWMx..
:::IIWMWMWMWMWMWMWMWMWBY%ZACH%AND%OWENMWMWMWMWMWMWMWMWMWMWMWMWMx..::::::::.
::::""MWMWMWMWMWM"""""""".::.:..:::."""""MWMWMWMWMWMWMWMWMWMWMWMWMWti.
:.:::::"":::.:`::.::.::.:::.::.::.::.::.:.:.::""""MWMWMWMWMWMWMWMWMWMWMWMWMti=
::::::::.:.::::`:.:::::.::.'.':'....xxxxx...,'.:':::':."""YWMWMWMWMWMWMWMWMWMW+
:::::;:.:`:.::.:::.:.'::::.:..XXXXXXXXXXXXXXXXXXXXx.::::`:::::.:"YWMWMWMWMWMWMW
.::::.::.::.::::.:.:::.::..XXXXXXXXWWWWWWWWWWWWWWWWXXXX.::.:::::.:::::"""""""
::::::::'::::::.:::.::...XXXXXWWW":::W88N88@888888WWWWWXX.:::.:::.:::::::.:.
:::.:':.::::.:::::...XXXXXXWWW"::::M88N88GGGGGG888^8M:"WMBX.::::::::::.:::..:::
:::::::::::::::..XXXXXXXXWWW":::::M88888WWRWWWMW8oo88M:::WWMX.:::::.:::::::::.
:::::::::::"XXXXXXXXXXXXWW":::::::WN8888WWWWW::W8@@@8M::::BMBRX.:::::::::.:::::
::.:::::::XXXXXXXX=MMWW":::.::::::W8N888WWWWWWWW88888W::::::XRBRXX.::.:::::::.
:::::....::""XXXXXMM::::.:.::::::::W8@889WWWWWM8@8N8W::::::.:.::RRXx.::::.
:::::::::``...'''::MMM::.:.::.::::::W888N89999888@8W::::::.:.:::::"RXV::::.:::
:.:::::::..'''''::::::MMMm::.::.::::::WW888N88888WW:::::.::.:mmMMMMMRXx
::::::..':.::::::::::::""MMmm:.::.:::::::WWWWWWW:::.::.::,miMM"""::::""`::::.
:::.::::::::::::::::.:::::::""MMMMmm:.:.::.::.:::._,mMMMM""":::::':.:::
:::::::::::::::.::::::::::::::::::""MMMMMMMMMMMMM""":.::::.:':::.::::::::.
::::::::::.::::::::::::::.:::::.::::.::::::::::::::::::::::.:::::::::.
.::::::::::::::::::::::::.:::::.::::.::::::::::::::::::::::.:::::::::.



Dans le cadre du projet Profil-Doc, nous avons construit un prototype de système de recherche d'information permettant de filtrer les réponses en fonction du profil de l'utilisateur.

Le projet Profil-Doc part du constat que tous les documents ne sont pas pertinents au même titre pour des utilisateurs différents, mecirc;me si leur contenu est en relation avec la question qui a été posée. Une étude approfondie sur un certain nombre de documents, livres, thèses, articles de revues scientifiques a montré qu'on pouvait trouver, pour chacun d'eux, une structure générique identifiable.

Selon cette constatation, "l'éclatement" du document selon ces unités va permettre, tout en préservant l'unité globale du document, de présenter à l'usager une information plus affinée et plus facile à saisir. Le découpage se fonde sur la fonction remplie par ces parties du document et non sur leur contenu.

Au niveau de l'utilisateur, ces propriétés seront autant d'outils supplémentaires utilisables lors de la requête pour sélectionner l'information. Pour aboutir à cela, nous avons d'abord procédé à l'évaluation d'un prototype mettant en oeuvre ces hypothèses. Cette évaluation devait en particulier porter sur la validité de la caractérisation des parties de documents, ainsi que la validité du système de filtrage imaginé.

Dans ce travail, nous proposons un protocole d'évaluation qui teste non pas la pertinence générale du système mais sa technologie. Ce protocole s'appuie sur des méthodes quantitatives d'analyse, en particulier des mesures endogènes, autrement dit : construites uniquement à partir des données produites par le système.

Ce protocole inclut

- Des méthodes d'analyse multi-dimensionnelles travaillant sur le contenu de la description des données ;
- Une méthode permettant de construire une collection de questions utilisée pour interroger automatiquement le système.
- Des indicateurs mathématiques de comparaisons d'ensembles réponses.
- Des méthodes globales d'analyse de l'ensemble des résultats basés sur des classifications.

On montre ainsi que la caractérisation de l'information dans le cadre du système Profil-Doc est valide. Nous proposons des ouvertures vers les améliorations possibles de ce système.