Les indications suivantes (en particulier taille en nombre de mots et surtout en nombre de phrases; il serait peut-être plus approprié de parler d'unités phrastiques pour certains participants) sont à prendre avec prudence, car elles n'ont pas été réalisées dans des conditions optimales. Elle seront confirmées une fois que nous aurons écrit les analyseurs syntaxiques pour les divers formats; en attendant, si des informations dans la liste ci-dessous vous semblent erronées ou douteuses, n'hésitez pas à nous faire part de vos remarques (par courrier électronique à pap@limsi.fr).
Pour visualiser :
( (<forme> | "<S>" | "</S>") <tabulation> <étiquette ATT> <saut de ligne> )*
Les diacritiques sont codés en ASCII sur 2 caractères pour les formes reconnues: e.g. "de'marrent", les 3 caractères ä, ö, et ü n'ont pas été reconnus comme tels et n'ont donc pas été transcodés.
Les phrases sont délimitées par des balises "" et "".
Il n'y a pas de reconnaissance/transcodage de la ligature "œ"
qui est reconnue comme 3 lexèmes distincts: "&", "oelig" et ";".
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| Calcul ne prenant pas en compte les balises de début et de fin de phrase. | ||
| corpus "Le Monde" | 117.940 | mots |
| corpus TesText | 298.253 | mots |
| total | 416.193 | mots |
| Taille en nombre d'octets: | ||
| corpus "Le Monde" | 1.033.943 | octects |
| corpus TesText | 2.505.893 | octects |
| total | 3.539.836 | octects |
| Taille en nombre phrases: | ||
| corpus "Le Monde" | 4.246 | phrases |
| corpus TesText | 12.651 | phrases |
| total | 16.897 | phrases |
J. Vergnes n'ayant pas fourni de tables de correspondance, il nous a fourni un double résultat, l'un avec les étiquettes GRACE (que nous decrivons dans ce paragraphe) selon le format:
( <forme> <tabulation> <étiquette GRACE> <saut de ligne> )*
et un autre avec ses étiquettes, contenant pour chaque phrase reconnue des informations sur les syntagmes identifiés dans la phrase.
Le codage des listes de valeurs alternatives pour un trait est fait avec "{}" au lieu de "[]" pour les descriptions morpho-syntaxiques.
Les formes composées sont indiquées, mais en préservant la segmentation originale du texte.
| tout | Rgp/1.3 |
| de | Rgp/2.3 |
| même | Rgp/3.3 |
La séquence "œ" est reconnue et intégrée à la graphie de la forme.
Le caractère "*" (marque de noms propres) est absent du corpus.
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| corpus "Le Monde" | 116.855 | mots |
| corpus TesText | 328.193 | mots |
| total | 445.048 | mots |
| Taille en nombre d'octets: | ||
| corpus "Le Monde" | 1.299.881 | octects |
| corpus TesText | 3.523.727 | octects |
| total | 4.823.608 | octects |
| Taille en nombre phrases: | ||
| Calcul obtenu par décompte des séquences: \n<espace>*<chiffre>+\n, | ||
| présentes dans le corpus non transcodé au format GRACE) | ||
| corpus "Le Monde" | 4.556 | phrases |
| corpus TesText | 16.430 | phrases |
| total | 20.986 | phrases |
P. Constant n'ayant pas fourni de table de correspondance, il nous a fourni une triple sortie, l'une contenant la projection de ses étiquettes dans le jeu d'étiquettes GRACE au format:
(<forme> <tabulation> <étiquette GRACE> ("|" <étiquette GRACE>)* <saut de ligne>)*
les deux autres explicitant des informations syntaxiques manipulées par son système.
La séquence "œ" a été transcodée en la séquence "oe".
Le caractère "*" (marque de noms propres) est absent du corpus.
Le codage des accents suit la norme ISO-8859-1.
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| Informations concerant le corpus au format GRACE. | ||
| corpus "Le Monde" | 113.237 | mots |
| corpus TesText | 330.924 | mots |
| total | 444.161 | mots |
| Taille en octets: | ||
| Informations concerant le corpus au format GRACE. | ||
| corpus "Le Monde" | 1.299.783 | octects |
| corpus TesText | 3.648.049 | octects |
| total | 4.947.832 | octects |
| Taille en nombre de phrases: | ||
| Informations concernant le corpus contenant les info. syntaxiques suppl. | ||
| Calcul base sur le decompte des sequences "(\*)* Phrase ". | ||
| corpus "Le Monde" | 4.314 | phrases |
| corpus TesText | 17.403 | phrases |
| total | 21.717 | phrases |
( "#" <numéro de phrase> <saut de ligne> (<forme> <tabulation> ":" lemme ":" <étiquette GRACE> ("[" lemme":" <étiquette GRACE> <tabulation> ":" <numéro de forme> "]")* )* <saut de ligne> )*
Lorsqu'une forme reconnue est expansée en plusieurs formes lemmatisées, les formes supplémentaires introduites ont comme valeur du premier champ ("forme") une chaîne vide.
Tous les caractères accentués ont été transcodés en une séquence de 2 caractères composée du caractère lui-même en minuscule suivi de son accent, à l'exception des caractères suivants qui n'ont pas été transcodés (norme ISO-8859-1): Ç, É ä ö û, ü.
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| Décompte des entrées ayant un champ "forme" non vide. | ||
| corpus "Le Monde" | 114.610 | mots |
| corpus TesText | 342.332 | mots |
| total | 456.942 | mots |
| Taille en octets: | ||
| corpus "Le Monde" | 5.259.357 | octects |
| corpus TesText | 29.534.120 | octects |
| total | 34.793.477 | octects |
| Taille en nombre de phrases: | ||
| Calcul basé sur le décompte des caractères "#". | ||
| corpus "Le Monde" | 4.320 | phrases |
| corpus TesText | 29.024 | phrases |
| total | 33.344 | phrases |
( "{" "ori=" <forme> "," "wnra=" <numero d'ordre absolu de la forme> ", " "wnrr=" <numero d'ordre de la forme dans la phrase> ",snr=" <numero de phrase> ",c=" <catégorie> ",lu=" <unité lexicale> <liste de traits morpho-syntaxiques de sous-catégorisation sous forme de paires attribut=valeur au format IAI> "}" <saut de ligne> )*
Les balises n'ont pas été reconnues comme telles et sont expansées sous forme de plusieurs lexèmes.
Les caractères '*' marquant les noms propres sont reconnus comme des lexèmes à.
La séquence "œ" n'est pas présente dans le corpus.
Le codage des caractères accentués suit la norme : caractère non accentué suivi d'un code numérique d'accent, e.g. "e1" pour é.
AVERTISSEMENT: Suite à des problèmes d'espace disque H.-D. Maas n'a marqué que 35.000 lignes (dont 20.000 dans les délais) représentant 32.520.477 octets.
| Taille en nombre de mots (corpus partiel) | 329.470 | formes |
| Taille en octets (corpus partiel) | 32.520.477 | octets |
| Taille en nombre de phrases (corpus partiel) | 14.718 | phrases |
( '"'<forme>'"' <tabulation> ':' <étiquette CNET> <saut de ligne> )*
Transcodage de la séquence "œ" en la sequence "oe".
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| corpus "Le Monde" | 121.368 | mots |
| corpus TesText | 355.832 | mots |
| total | 477.200 | mots |
| Taille en octets: | ||
| corpus "Le Monde" | 2.520.440 | octects |
| corpus TesText | 7.522.864 | octects |
| total | 10.043.304 | octects |
( <forme> <tabulation> <lemme> <tabulation> "+"<étiquette RXRC> <saut de ligne> | (( <forme> <tabulation> <lemme> <tabulation> "+"<étiquette RXRC> <saut de ligne>)*) )*
Caractère "*" reconnu comme marque de nom propre et integré à la graphie de la forme.
La séquence "œ" est reconnue et intégrée à la graphie de la forme et du lemme. Le caractère "=" code les espaces dans les formes composées.
(*) La ligne vide séparant les informations associées à 2 formes consécutives est parfois absente, dans ce cas, les lignes successives donnent la liste des ambiguïtés pour la forme donnée.
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| Valeurs approximatives du fait de la remarque precedente 4) | ||
| corpus "Le Monde" | 118.428 | mots |
| corpus TesText | 333.792 | mots |
| total | 452.220 | mots |
| Taille en octets: | ||
| corpus "Le Monde" | 2.345.448 | octects |
| corpus TesText | 6.304.938 | octects |
| total | 8.650.386 | octects |
( <saut de ligne> ( <forme> <espaces>* étiquette LATL> [ "(" <forme d'origine pour les prépositions contractées> ")" ] <saut de ligne> )* <saut de ligne> )*
Les séquences de formes séparées par des sauts de lignes identifient des phrases reconnues par le système.
Le caractère "*" marquant les noms propres n'est pas reconnu comme tel, il n'est pas intégré à la forme et est traité comme une ponctuation.
La séquence "œ" a été trancodée en la séquence "oe".
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| Calcul ne considérant pas les séquences (\n)+ | ||
| séparant les phrases | ||
| corpus "Le Monde" | 107.279 | mots |
| corpus TesText | 304.469 | mots |
| total | 411.748 | mots |
| Taille en octets: | ||
| corpus "Le Monde" | 4.781.690 | octects |
| corpus TesText | 13.693.678 | octects |
| total | 18.475.368 | octects |
| Taille en nombre de phrases: | ||
| Calcul par décompte des occurrences des séquences (\n)+. | ||
| corpus "Le Monde" | 4.594 | octects |
| corpus TesText | 16.343 | octects |
| total | 20.937 | octects |
( <forme> <espace> <étiquette LIA/LPL> <saut de ligne> )*
Les caractères "*" marquant les noms propres ont été supprimés.
La séquence "œ" a été transcodée en la séquence "oe".
La séquence ".." "ZTRM" <saut de ligne> ".." "ZTRM" semble marquer des séparations entre les groupes syntaxiques principaux identifiés par le système.
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| Sont exclues du compte les séquences : ".. ZTRM". | ||
| corpus "Le Monde" | 117.266 | mots |
| corpus TesText | 333.009 | mots |
| total | 450.275 | mots |
| Taille en octets: | ||
| corpus "Le Monde" | 1.358.337 | octects |
| corpus TesText | 3.776.919 | octects |
| total | 5.135.256 | octects |
( <forme> <espace>* ":" <espace> <lemme> ":" <étiquette TGID> [,<étiquette TGID>*] <2 espaces> <informations de genre et de nombre sur 8 positions> <espace> <informations morpho-syntaxiques complementaires, e.g. personne etc., sur 15 positions> <3 espaces> <saut de ligne> )*
Le caractère "*" marquant les noms propres n'est pas reconnu comme tel, il n'est pas intégré à la forme.
La séquence "œ" a été transcodée en la séquence "oe".
Les balises ne sont pas reconnues comme telles.
AVERTISSEMENT: Il semble que seule la partie TesText du corpus à marquer nous ait été fournie. En outre, il existe des portions de texte marquées qui sont répétées dans le fichier fourni, ainsi que des portions ne mentionnant que des listes de balises (expansées en plusieurs lexèmes). Ceci est probablement dû aux problèmes de FTP que nous avons rencontrés pour transférer les résultats.
| Taille en nombre de mots (corpus partiel) | 422.870 | mots | ||
| Taille en octets (corpus partiel) : | 32.112.640 | octets | ||
( <forme> <tabulation> <étiquette ISSCO> <saut de ligne> )*
La séquence "œ" est reconnue et intégrée à la graphie de la forme et du lemme.
Le caractère '*' marquant les noms propres est absent du corpus.
Le codage des accents suit la norme ISO-8859-1.
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| corpus "Le Monde" | 118.515 | mots |
| corpus TesText | 335.525 | mots |
| total | 454.040 | mots |
| Taille en octets: | ||
| corpus "Le Monde" | 1.464.252 | octets |
| corpus TesText | 3.975.832 | octets |
| total | 5.440.084 | octets |
( "=========== DEBUT DE PHRASE ============" ( <forme> <tabulation> ["A" <nombre d'entrées ambigües du lexique>] <tabulation> <étiquette SYNAPSE> <codage fin spécialisé SYNAPSE, format heaxdcécimal> <tabulation> <étiquette GRACE, chaque valeur de trait séparée de la précédente par un espace> <saut de ligne> ) * "============ FIN DE PHRASE =============" <saut de ligne> )*
La séquence "œ" a été transcodée en la séquence "oe".
Le caractère "*" (marque de nom propre) est absent du corpus.
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| Les marques de debut et de fin de phrase ne sont pas comptees, ainsi que | ||
| les lignes vides intercalaires. | ||
| Le codage des accents suit la norme ISO-8859-1. | ||
| corpus "Le Monde" | 113.488 | mots |
| corpus TesText | 326.425 | mots |
| total | 439.913 | mots |
| Taille en octets: | ||
| corpus "Le Monde" | 3.642.908 | octects |
| corpus TesText | 10.402.530 | octects |
| total | 14.045.438 | octects |
| Taille en nombre de phrases: | ||
| corpus "Le Monde" | 4.559 | phrases |
| corpus TesText | 13.860 | phrases |
| total | 18.419 | phrases |
( <forme> <tabulation> <étiquette PILAF> ("|" <étiquette PILAF>)* <tabulation> <étiquette GRACE> ("|" <étiquette GRACE>)* )*
Fourniture du code source d'un programme de transcodage des catégories
PILAF vers celles de GRACE (au moyen d'une table de
La séquence "œ" est reconnue et intégrée à la graphie de la forme.
Le caractère "*" (marque de noms propres) est absent du corpus.
Le codage des accents suit la norme ISO-8859-1.
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| corpus "Le Monde" | 119.234 | mots |
| corpus TesText | 338.836 | mots |
| total | 458.070 | mots |
| Taille en octets: | ||
| corpus "Le Monde" | 4.412.605 | octects |
| corpus TesText | 12.831.656 | octects |
| total | 17.244.261 | octects |
( <balise> | <forme> <tabulation> <étiquette ILR/IMS> <tabulation> <lemme> <saut de ligne> )*
La séquence "œ" a été transcodée en la séquence "oe".
Le caractère "*" (marque de noms propres) est absent du corpus.
Le codage des accents suit la norme ISO-8859-1.
Les balises sont reconnues mais n'ont pas d'étiquette associée (ce sont les seules formes dans ce cas).
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| corpus "Le Monde" | 122.801 | mots |
| corpus TesText | 341.340 | mots |
| total | 464.141 | mots |
| Taille en octets: | ||
| corpus "Le Monde" | 2.657.746 | octects |
| corpus TesText | 7.481.562 | octects |
| total | 10.139.308 | octects |
( <forme> <espace>* <lemme> <espace>* <étiquette IBM> <saut de ligne> )*
Le codage des accents suit la norme IBM-850.
La séquence "œ" a été transcodée en la séquence "oe".
Le caractère "*" (marque de noms propres) est absent du corpus.
Présence d'une balise non reconnue et donc expansée en plusieurs lexèmes dans un fichier.
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| corpus "Le Monde" | 120.807 | mots |
| corpus TesText | 341.933 | mots |
| total | 462.740 | mots |
| Taille en octets: | ||
| corpus "Le Monde" | 6.288.526 | octects |
| corpus TesText | 17.797.712 | octects |
| total | 24.086.238 | octects |
( "{sent}" | (<forme> <tabulation> <tabulation> <étiquette CITI> <saut de ligne>) )*
La chaîne "{sent}" est un marqueur de fin de phrases.
La séquence "œ" a été transcodée en la séquence "oe".
Le caractère "*" (marque de nom propre) est absent du corpus.
Le codage des accents suit la norme ISO-8859-1.
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| corpus "Le Monde" | 117.373 | mots |
| corpus TesText | 332.833 | mots |
| total | 450.206 | mots |
| Taille en octets: | ||
| corpus "Le Monde" | 2.522.003 | octects |
| corpus TesText | 7.172.488 | octects |
| total | 9.694.491 | octects |
| Taille en nombre de phrases: | ||
| corpus "Le Monde" | 2.835 | phrases |
| corpus TesText | 11.784 | phrases |
| total | 14.619 | phrases |
Nous disposons pour les essais des résultats de 2 systèmes ( système 1 et système 2), l'analyse des résultats décidera de leur présentation indépendante ou de la fusion de leurs résultats respectifs en un seul.
Système 1 (E. Brill entraîné pour le français par J. Lecomte - INaLF)
( <forme> "/" <étiquette INaLF1> (<espace> | <saut de ligne>) )*
La sequence "œ" est reconnue comme 2 lexèmes "&oelig" et ";".
Caractère "*" est reconnu comme marque de nom propre et intégré à la graphie de la forme.
Le codage des accents suit la norme ISO-8859-1.
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| Calcul par décompte des occurrences du caractère "/". | ||
| corpus "Le Monde" | 122.169 | mots |
| corpus TesText | 336.772 | mots |
| total | 458.941 | mots |
| Taille en octets: | ||
| corpus "Le Monde" | 1.158.564 | octects |
| corpus TesText | 3.074.641 | octects |
| total | 4.233.205 | octects |
Systeme 2 (J. Maucourt - INaLF)
( <forme> "$g" <étiquette INaLF2> ">" (<espace> | <saut de ligne>) )*
La séquence "œ" a été transcodée en la séquence "oe".
Le caractère "*" est reconnu comme marque de nom propre et intégré à la graphie de la forme.
Le codage des accents suit la norme IBM-850.
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| Calcul par décompte des occurrences de la séquence "$g". | ||
| corpus "Le Monde" | 125.980 | mots |
| corpus TesText | 347.100 | mots |
| total | 473.080 | mots |
| Taille en octets: | ||
| corpus "Le Monde" | 1.514.746 | octects |
| corpus TesText | 4.083.362 | octects |
| total | 5.598.108 | octects |
Le format proposé pour l'évaluation est le format sans balises.
Les format sans balises est :
( <forme> "/" <étiquette LIMSI> (<espace> | <saut de ligne>) )*
et le format avec balises est :
( (<balise> | (<forme> "/" <étiquette LIMSI>)) (<espace> | <saut de ligne>) )*
Le codage des accents suit la norme ISO-8859-1.
Le caractère "*" marquant les noms propres n'est pas reconnu comme tel lorsque le nom propre commence par un caractère minuscule. Il est alors reconnu comme une lexeme a part entiere.
| Taille en nombre de mots (formes reconnues comme telles par le participant): | ||
| Ces données concernent les fichiers sans balises. | ||
| Calcul par décompte des occurences du caractère "/". | ||
| corpus "Le Monde" | 120.870 | mots |
| corpus TesText | 342.726 | mots |
| total | 463.596 | mots |
| Taille en octets: | ||
| Ces données concernent les fichiers sans balises. | ||
| corpus "Le Monde" | 1.307.517 | octects |
| corpus TesText | 3.588.461 | octects |
| total | 4.895.978 | octects |
| Taille en nombre de phrases: | ||
| corpus "Le Monde" | 4.160 | phrases |
| corpus TesText | 14.365 | phrases |
| total | 18.525 | phrases |