Campagne d'évaluation EASY


Evaluation des Analyseurs SYntaxiques

programme EVALDA-TECHNOLANGUE

Derniers documents installés sur le site.

Spécification des mesures d'évaluation en constituants(avec l'archive latex au format .tar.gz ici)

une DTD XML pour les constituants

une DTD XML pour les relations

un répertoire des données de CorpusGuide au format d'entrée segmenté et tokenisé (avec leur dtd)

un répertoire des résultats correspondants, au format de sortie complet (avec constituants et relations)+ une archive tgz

une nouvelle version du répertoire CorpusGuide_v1.6.3, avec la correction des erreurs de syntaxe sur les liens xlink

Guide d'annotation

Guide d'annotation version PASSAGE 2.1 (05 novembre 2009)
Guide d'annotation version 1.6, 1.6.2, 1.6.3
Guide d'annotation version 1.6
Guide d'annotation version 1.5
Guide d'annotation version 1.4
Guide d'annotation version 1.3

Vous trouverez dans le répertoire CorpusGuide_v1.6.3 une annotation des phrases données comme exemple dans le guide (à peu près exhaustivement !).
Il s'agit d'une version "beta" : toutes les annotations n'ont pas été vérifiées par croisement, mais c'est une première étape, qui ouvrira  la discussion!

L'ensemble du repertoire CorpusGuide_v1.6.3 est aussi disponible sous forme d'archive tgz

L'organisation est la suivante :

  1. Dans Brut : le  texte complet  brut (textesBruts.txt), puis tokénisé en mots (textesTOK.txt) et enfin segmenté en énoncés (textesSeg.txt), puis découpé en 15 fichiers de 10 énoncés (Guide.i).
  2. Dans Constituants : pour chaque fichier (Guide.i), vous trouverez :
    •  la version html de départ ("à colorier") : Guide.i.ph1.html
    • la version html de sortie, annotée en constituants  ("coloriée") : Guide.i.ph1. XX.html, où, par convention, XX sont les initiales de l'annotateur
    • la version xml de l'annotation en constituants : Guide.i.ph1.XX.xml
  3. Dans Relations: pour chaque fichier (toujours Guide.i), vous trouverez :
    • une nouvelle version de l'annotation en constituants, utilisée pour consultation lors de l'annotation en relations : Guide.i.ph2.XX.Lire.html
    • l'annotation des relations correspondants à ce fichier dans les tables de relations (remplies par l'annotateur) : Guide.i.ph2.XX.html
    • la version xml globale, incluant l'annotation en constituants et en relations pour chaque énoncé : Guide.i.ph2.XX.xml
  4. Dans xml: les annotations en relation et constituants au format xml
  5. Dans ascii: une visualisation des constituants et relations en mode ASCII.
Outils

Ici, la version qui a servi à preparer le corpus d'évaluation (octobre 2004), c'est à dire à effectuer une segmentation en mots et en énoncés "raisonnable". Les outils se compilent sous Linux, ou bien sous Windows avec cygwin.

En version alpha, la conversion des relations en html vers du xml (à partir aussi du fichier xml des constituants) en perl, avec un mini LisezMoi

Si vous avez l'outil de visualisation d'Emmanuel Giguet, vous pourrez aussi utiliser cet outil de conversion pour passer d'un répertoire contenant les fichiers xml au format EASY à un répertoire au format xml de cet outil...

Liste des formes composées

Liste des formes composées (pour la segmentation en mots),
au format tabulaire suivant:

  • premier champ, la forme (une entrée avec la première lettre en majuscule et une avec la première lettre en minuscule)
  • étiquette morpho-syntaxique, si une forme a plusieurs étiquettes possibles, l'entrée pour cette forme est dupliquée.

Les espaces sont remplacés par des "_".

Accès à la liste des formes composées, (version 2.11): supression de vis-à-vis, vis-à-vis de, à part de, à peine de, à vue de, suite aux remarques de J. Vergne.

Informations sur les anciennes versions de la liste de formes composees (ancien format).

  • Version 2.10: suppression de "du même coup", "d'une part", "du reste", correction de la segmentation de "l'un et l'autre".
  • Version 2.8: suppression des verbes et des noms (ces deux categories ne pouvant pas faire parti de cette liste), des abbreviations (car trop arbitraires) et de quelque locutions trop ambigues (il semble que la presence d'un article defini et d'un nom soit un critere d'ambiguite quasiment certaine), ajout de "à gauche", suppression de la plupart des patrons "au_NOM_de", (e.g. "au cours de", car "au cours de musique"). Cette liste contient 1798 entrées.
  • Version 2.5: simplification du format de la liste (suppression du premier champ qui contenait le decompte de formes dans le corpus MULTITAG, devenu obsolete depuis les ajouts recents) et ajout des formes composées qui étaient précédemment reconnues par l'étape 2 du segmenteur en mots mais n'étaient pas présentes dans la liste (faute d'étiquette). Cette liste contient maintenant 2206 entrées.
  • Version 2.4: correction de la segmentation pour "au-dessus" et "vis-à-vis").
  • Version 2.1: ajouts des propositions filtrées par nos soins de : A. Abeillé, C. Chardenon, D. Laurent, J. Vergne.
  • Version 1.7: suppression de (D)de_temps_en_temps.
  • Version 1.6: ajout de (Q)quant_au et (Q)quant_aux par rapport à la version 1.5

    Dans la liste initiale extraite du corpus MULTITAG, il y a 668 formes distinctes (excluant toute variation de casse et d'étiquette morpho-syntaxique).

Liste de tâches

Lot 1 Tâche 1.1 Suivi de projet.
Tâche 1.2 Mise en place du comité de pilotage.
Tâche 1.3 Mise en place du comité scientifique.
Tâche 1.4 Rédaction d'un modèle de «contrat de participation».
Lot 2Tâche 2.1 Définition du corpus de test.
Tâche 2.2 Constitution du corpus de test.
Tâche 2.3 Annotation du corpus de test.
Tâche 2.4 Validation.
Tâche 2.5 Rédaction d'un modèle de contrat de mise à disposition de données linguistiques.
Lot 3Tâche 3.1 Définition du formalisme d'annotation.
Tâche 3.2 Rédaction d'un guide d'annotation.
Tâche 3.3 Spécification des outils d'annotation.
Tâche 3.4 Réalisation des outils d'annotation.
Lot 4Tâche 4.1Définition des métrique d'évaluation.
Tâche 4.2Spécification des outils de mesure.
Tâche 4.3Réalisation des outils de mesure.
Lot 5Tâche 5.1Appliquer les outils de mesure sur les données annotées par les participants et produire les résultats.
Tâche 5.2Fusionner les données annotées, en mémorisant celles qui divergent.
Tâche 5.3Analyser les résultats de la combinaison des annotations des participants et rédiger un rapport.
Lot 6Tâche 6.1Adaptation des analyseurs participants.
Tâche 6.2Rédactin d'un rapport de synthèse sur l'adaptation.
Tâche 6.3Exécution des tests par les participants.
Lot 7Tâche 7.1Organisation de la campagne de tests.
Tâche 7.2Organisation de l'atelier de clôture de campagne et publication des actes.
Lot 8Tâche 8.1 Validation manuelle des annotations identifiées comme peu fiables.
Tâche 8.2 Diffusion des données ainsi validées.

Calendrier prévisionnel

 

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

 

J

F

M

A

M

J

J

A

S

O

N

D

J

F

M

A

M

J

J

A

S

O

N

D

J

F

T1.1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T1.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T1.3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T1.4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T2.1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T2.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T3.1

 

 

 

 

V1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T3.2

 

 

 

 

 

V1

 

V2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T3.3

 

 

 

 

V1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T3.4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T2.3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T2.4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T2.5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T4.1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T4.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T4.3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T6.1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T6.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T6.3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T5.1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T5.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T5.3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T7.1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T7.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T8.1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T8.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

 

J

F

M

A

M

J

J

A

S

O

N

D

J

F

M

A

M

J

J

A

S

O

N

D

J

F