limsi-logo INaLF-logo ENST-logo EPFL/LIA-logo Grammaires & Ressources pour les Analyseurs de Corpus & leur Évaluation


Voici une liste des profils des données qui ont été retournées par les participants pendant la phase de marquage du corpus d'essais. Les données elles-mêmes n'étant pas à priori publiques, seules sont fournies les indications saillantes, concernant principalement l'analyse automatique des fichiers. Une première constatation est apportée par l'existence d'une grande diversité de contenu d'information et de format (en particulier pour les normes de codage des caractères). Vous pourrez ainsi mieux apprécier le travail que nous avons à accomplir pour analyser ces données.

Les indications suivantes (en particulier taille en nombre de mots et surtout en nombre de phrases; il serait peut-être plus approprié de parler d'unités phrastiques pour certains participants) sont à prendre avec prudence, car elles n'ont pas été réalisées dans des conditions optimales. Elle seront confirmées une fois que nous aurons écrit les analyseurs syntaxiques pour les divers formats; en attendant, si des informations dans la liste ci-dessous vous semblent erronées ou douteuses, n'hésitez pas à nous faire part de vos remarques (par courrier électronique à pap@limsi.fr).

Pour visualiser :

Pour visualiser le profil des données qui ont été retournées participant par participant :