|
Paris time:
|
Action Transversale CORVAL (CORpus & éVALuation)
Objet Débutée en octobre 1997, l'action CORVAL a pour objectif d'être un lieu d'échanges et de synthèse autour des activités concernant les corpus (oraux ou écrits) et l'évaluation des systèmes à composante de communication humaine ou assimilée.
Description Les corpus, qui sont des regroupements d'extraits de langage (allant de l'œuvre complète aux extraits de quelques mots) guidés par une hypothèse de recherche explicite, constituent de nos jours un support indispensable au développement des systèmes à composante de communication humaine (SCCI).
Mais la spécificité du langage naturel nécessite d'avoir recours à des solutions appropriées pour la représentation, le stockage, l'exploration, l'analyse et la maintenance de ces données d'un genre bien particulier et, si des standards commencent à apparaître beaucoup de points restent encore en attente de solutions reconnues par tous.
Des questions comme les critères de sélection du contenu d'un corpus, ou encore l'évaluation de sa qualité, restent pour le moment du domaine de la recherche. Pour l'évaluation des systèmes à composante de communication humaine, le paysage est encore plus hétérogène puisque, selon le type de système considéré, on peut tout trouver, des programmes d'évaluation internationaux ayant parfois une histoire couvrant plus d'une décennie avec des protocoles et des métriques bien définis (par exemple en reconnaissance de la parole), jusqu'aux domaines où tout est à faire en termes d'évaluation, par exemple comment évaluer une ontologie ou un système de dialogue ?
Certains se demandent même si l'évaluation en SCCI est un sujet de recherche à part entière ?
Nous le pensons; mais ce point n'est pas encore admis par l'ensemble de la communauté.
Quels sont les bénéfices pour le domaine et de quelle infrastructure a t'on-besoin au niveau national et international ?
Quelle méthodologie doit-on employer ?
L'évaluation doit-elle s'intéresser d'abord au processus de résolution d'un problème ou plutôt à la capacité qu'a un système d'aider un humain dans sa tâche ?
Comment séparer ce qui appartient à la technologie sous-jacente de ce qui relève de l'interface homme-machine ? Comment est-il possible de généraliser ou de réutiliser les résultats d'une évaluation ?
Résultats & Perspectives L'histoire de l'action CORVAL peut être découpée trois époques.
Lors de la première (1997-1998), les activités du groupe ont concerné principalement les ressources (projet CNRS/AUF SILFIDE) et les méthodes quantitatives d'évaluation des systèmes d'annotation de textes (action incitative XiCOP d'extraction d'information) et une réflexion sur l'évaluation de la segmentation de textes [1].
L'INaLF et le Loria (Nancy), l'EPFL (Lausanne), TALANA (U. Paris 7), le LPL (Aix-en-Provence), ELRA (Paris), l'AUF (Paris) ont contribué aux activités du groupe.
Une réflexion plus générale sur l'évaluation a aussi été effectuée dans le cadre du projet Européen ELSE (infrastructure pour l'évaluation en génie linguistique pour le 5ème programme-cadre de la Communauté Européenne) [2].
Au cours de la seconde époque (1998-1999), les efforts se sont portés sur le projet MULTITAG [6] du CNRS (valorisation du corpus produit par la campagne d'évaluation GRACE [3][5] des systèmes d'annotation morpho-syntaxique), la contribution à un projet de BQR avec le LRI (Orsay) pour l'évaluation d'un système d'apprentissage à partir de textes, une contribution aux rapports finaux des projets européens ELSE et DISC (ingénierie des systèmes de dialogue oral) [4].
Dans l'époque actuelle (la troisième) CORVAL participe au projet européen CLASS qui est une action destinée à promouvoir une synergie entre projets selon les regroupements thématiques suivants: l'interaction naturelle et multimodale, la gestion de connaissance interlingue, la presentation interactive intelligente d'information, et l'évaluation en langage et parole.
En outre, CORVAL poursuit ses efforts pour développer une réflexion au sein du laboratoire sur les aspects théoriques de l'évaluation et étendre ses activités au sein d'une collaboration pluridisciplinaire débutée avec l'INIST et le département des Sciences de la Vie du CNRS sur l'analyse d'information dans l'étude du génome humain [7].
Bibliographie
- B. Habert, G. Adda, M. Adda-Decker, P. Boula de Mareuil, S. Ferrari, O. Ferret, G. Illouz, P. Paroubek, The need for tokenization evaluation , Proceedings of the First International Conference on Language Resources and Evaluation (LREC), Granada, May 1998, vol. 1 pp 427-431.
- Joseph Mariani, Patrick Paroubek, Human Language Technologies Evaluation in the European Framework, Proceedings of the DARPA Broadcast News Workshop, Washington, Morgan Kaufman Publishers, ISBN-1-55860-638-6, February 1999, pp 237-242.
- Gilles Adda, Joseph Mariani, Patrick Paroubek, Martin Rajman, Josette Lecomte, L'action GRACE d'évaluation de l'assignation de parties du discours pour le français, Langues : cahiers d'études et de recherches francophones, Vol. 2, No. 2, Juin 1999, pp 119-129.
- Laila Dybkjaer, Niels Ole Bernsen, R. Carlson, Lin Chase, N. Dahlback, Klaus Failenschmid, Ulrich Heid, Paul Heisterkamp, A. Jonsson, H Kamp, Inger Karlson, Jan van Kuppevelt, Lori Lamel, Patrick Paroubek, D. Williams, The Disc Approach to Spoken Language System Development and Evaluation , Proceedings of the First International Conference on Language Resources and Evaluation (LREC), Granada, May 1998, vol. 1, pp 185-189.
- Gabriel Illouz, Méta-Étiqueteur Adaptatif: vers une utilisation pragmatique des ressources linguistique, Conférence TALN 1999, Gargèse, 12-17 Juillet, Actes, pp 185-194.
- P. Paroubek, M. Rajman, MULTITAG une resource linguistique produit du paradigme d'évaluation, 7ème conférence annuelle sur le Traitement Automatique des Langues Naturelles, Lausanne 16-18 Octobre 2000, pp. 297-306.
- Turner, W.A., R. Gherbi, C. Jacquemin, M. de Saint Léger, Infometric Methods and Measures for Sharing Knowledge over Internet , Scientometrics, Vol. 50, No.1, janvier 2001.
[Dernière mise à jour: jeudi 28 Juin 2001]
|