Rechercher  


Version française English version
INS2I INSIS Annuaire LIMSI
   
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
Logo LIMSI
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

[ Dérouler vers : Contenu, Menus, Bannière, Aide à la navigation. ]

Action transversale Corpus parole/Texte et Evaluation

Action COPTE  

COrpus Parole/Texte & Evaluation

Corpora speech-text & evaluation

Gilles Adda, Martine Adda-Decker, Claude Barras, Philippe Boula de Mareüil, Benoît Habert, Patrick Paroubek
Objectif
L'action transversale COPTE est à la croisée de deux domaines de recherche du Traitement Automatique des Langues : d'une part la reconnaissance automatique de la parole et d'autre part l'analyse de la langue écrite. COPTE a débuté en août 2004 et est le résultat de la fusion de deux actions transversales complémentaires du département Communication Homme-Machine du LIMSI: ARCHIMED et CORVAL. ARCHIMED avait débuté en 2001 et avait pour but de développer conjointement l'expérience acquise en reconnaissance automatique de la parole et en traitement de la langue écrite. CORVAL, qui avait démarré en octobre 1997, se voulait un lieu d'échanges scientifiques et techniques pour les membres du LIMSI impliqués dans des activités de recherche utilisant des corpus (d'oral ou d'écrit) ou ayant trait à l'évaluation de systèmes de traitements du langage. Les activités actuelles de COPTE comprennent :
  1. la participation des différentes équipes du LIMSI (TLP, LIR, PS) dans le programme d'évaluation TECHNOLANGUE du ministère délégué à la Recherche.
  2. l'étude de la combinaison de ressources linguistiques apparentées (par exemple des données audio et leurs transcriptions textuelles associées) au moyen de méthodes de transcription automatique de la parole afin de produire automatiquement des transcriptions enrichies de très bonne qualité.
Description
TECHNOLANGUE a pour ambition le développement d'une infrastructure nationale pour l'évaluation des technologies du traitement du automatique du langage, l'amélioration de la disponibilité des logiciels libres et ouverts dans ce domaine et la promotion de l'utilisation des standards. Toutes ces activités sont des éléments clé du développement du domaine des interfaces homme-machine. Le LIMSI participe à 5 campagnes d'évaluation sur la langue française : ESTER, EQUER, MEDIA, EVASY, EASY, qui ont débuté il y a 3 ans dans le cadre du projet EVALDA :
  1. ESTER concerne l'évaluation de la transcription automatique enrichie de la parole (TLP),
  2. EQUER porte sur l'évaluation des méthodes d'extraction d'information (LIR),
  3. MEDIA s'intéresse à l'évaluation de la compréhension du langage pour le dialogue automatique (LIR,TLP),
  4. EVASY porte sur l'évaluation de la synthèse vocale (PS),
  5. EASY concerne l'évaluation de l'analyse syntaxique automatique. (LIR).
Le LIMSI est un participant dans les 4 premières campagnes d'évaluation et est co-organisateur de la dernière. Le développement d'un paradigme d'évaluation comme TECHNOLANGUE le propose, est crucial pour le futur de l'ingénierie linguistique que ce soit pour le domaine de l'oral ou de l'écrit. Il implique de disposer de mesures d'évaluation partagées par tous et de ressources langagières documentées pour l'entraînement des systèmes et leur test. L'évaluation permet de mieux cerner les inconvénients et les avantages des différentes approches, qui sont discutées au vu des résultats obtenus lors d'ateliers propres aux campagnes d'évaluation. Le multilingualisme devient un élément clé du déploiement du paradigme d'évaluation dans un contexte international, en particulier dans celui du contexte européen de la société de l'information. Aux États-Unis, le paradigme d'évaluation a été et est encore largement utilisé dans les programmes du DARPA et du NIST depuis 1987, essentiellement sur l'anglais américain. Plus récemment, les campagnes se ont été ouvertes sur d'autres langues (par ex. Multilingual TREC sur la recherche documentaire). L'action transversale COPTE s'est fixé comme but à long terme le déploiement du paradigme d'évaluation dans un contexte international, ce qui pourrait être le point de départ de la constitution d'une infrastructure d'évaluation pour l'ingénierie linguistique au niveau Européen, par exemple dans le cadre du prochain programme cadre de la Communauté Européenne.
technolangue in the research/technology/application context

A plus court terme, les activités actuelles de COPTE portent sur la combinaison de traitements spécifiques à l'oral et à l'écrit sur des ressources apparentées. Nous utilisons des transcriptions destinées à la presse de débats politiques télévisés, fournis par l'INA, pour améliorer la performance des systèmes de transcription automatique. Un accent particulier est mis sur l'étude du traitement des disfluences (répétitions, révisions, hésitation, etc.) sur un corpus de 10 heures de programmes télévisé des années 90. Lors de chaque émission, un politicien ou une personnalité publique est interviewée par plusieurs journalistes. Nous disposons des transcriptions à destination de la presse de ces émissions. Elles contiennent un transcription très précise des paroles enregistrées avec l'objectif de refléter exactement l'intention du locuteur plutôt que ses paroles exactes. En particulier, les hésitations, reformulations et les phrases tronquées sont souvent omises ou reformulées. Néanmoins, ces transcriptions restent globalement suffisamment proches de l'énoncé original, puisque qu'elles sont utilisées pour faire des citations des passages marquants. La production de transcriptions débarrassées des disfluences est un des objectifs actuels de la recherche en transcription automatique de la parole, L' annotation des disfluences est un premier pas vers l'organisation de campagnes telles que celles organisées par le NIST sur les transcriptions enrichies (http://nist.gov/speech/tests/rt/index.htm). Le type de données produites par ces systèmes de transcription enrichie de l'oral, sans disfluence et segmentées en petits groupes complets d'informations (phrases simples) sont très utiles pour des traitement ultérieurs sur leur contenu informationnel.

Comme première étape, les transcriptions de presse ont été alignées avec le signal de parole. Ensuite, 10% du corpus total (env. 10.000 mots) a été corrigé à la main pour fournir une transcription exacte contenant tous les évènements audibles.

image Sibling resources - informed manual annotation
Figure 2: De haut en bas, différentes manières de produire des transcriptions de parole (A) en partant du signal seul: 60 fois le temps réel; (B) en utilisant des textes apparentés: 12 fois le temps réel; (C) à partir de transcriptions automatiques enrichies: 8 fois le temps réel).


L'annotation des disfluences a été faite en suivant les recommandations du Linguistic Data Consortium (LDC) Une particularité des débats politiques ou des interviews polémiques est l'occurrence relativement fréquente de luttes pour la prise de parole parmi les intervenants. Les portions de parole superposée et les disfluences qui leurs sont associées sont donc relativement fréquentes dans notre corpus. Nous avons classé les disfluences en : pauses remplies (transcrites "euh" en français), marqueurs de discours, marques d'édition de l'orateur a propos de son propre discours, a parte, répétitions, révisions, hésitations...

image Transcriber + annotations disfluences
Figure 3: Copie d'écran de Transcriber contenant un extrait de transcription audio exacte manuelle vérifiée avec l'annotation des évènements propres à la parole spontanée.
Résultats et perspectives
Notre étude montre que les pauses remplies peuvent se produire n'importe ou dans le discours. Plus précisément, 35% des pauses remplies se produisent près d'une frontière de phrase indiqué par un point final (14%) ou bien près d'une frontière majeure dans la phrase, indiquée une virgule (21%) dans les transcriptions à destination de la presse. Pour les 65% de pauses remplies restantes, la Table 1 donne la distribution des contextes gauches et droits les plus fréquents, considérés indépendamment. Même au milieu des phrases, les pauses remplies précèdent souvent un déterminant ou une préposition et elle se retrouvent aussi souvent après une conjonction ou une préposition. Cette asymétrie nous laisse à penser que les pauses remplies sont très rares à l'intérieur des groupes nominaux, surtout entre un déterminant et un nom. Dans ce cas, d'autre mécanismes comme l'élongation de la syllabe finale ou la répétition sont préférés par l'orateur.
Les répétitions et les révisions ont des traits communs : d'abord elles concernent en moyenne 1 ou 2 mots, et il y a une forte corrélation (0.8) parmi les locuteurs entre leurs décomptes respectifs de répétitions et révisions. Les locuteurs qui produisent beaucoup de répétitions ont tendance à produire aussi beaucoup de révisions. Ensuite, les répétitions et révisions les plus fréquentes ont tendance à être des mots outils mono-syllabiques: de (72 répétitions + 45 révisions), le (40 répétitions + 39 révisions), etc. Pour tous les locuteurs, dans les deux premières places et dans le même ordre, nous trouvons des mots très fréquents en français. La forme "le" est beaucoup plus souvent un déterminant qu'un pronom, même si rien n'empêche un pronom sujet comme "je" d'être l'un des mots répété ou révisé les plus fréquents. Dans la table 2, la plupart des mots sont partagés entre répétitions et révisions. Il n'est donc pas surprenant que nous proposions l'interprétation suivante : dans le processus de recherche des mots, un mot amorce comme l'article masculin singulier "le" peut être répété s'il s'accorde grammaticalement avec ce qui suit, sinon le locuteur se reprend. Le fait que qu'il y a plus de noms masculins que de noms féminins en français (16 kmots contre 12 kmots dans le dictionnaire BDLEX) ne paraît pas suffisant pour expliquer pourquoi "le" surpasse "la" à la fois dans les répétitions et les révisions. Par contraste, la conjonction "et" est à peine utilisée pour les révisions, et nous la trouvons essentiellement dans des répétitions.
L'inspection de la partie droite de la Table 1 révèle que les mots qui suivent le plus souvent des mots étiquetés comme une révision sont " d' " et " l' " : précisément les formes abrégées des mots révisés les plus fréquents. Cela signifie que les reprises les plus fréquentes sont de la forme " de d' ", devant un mot commençant par une voyelle. Ensuite nous trouvons, "la" (plus fréquent que "le"), ce qui est en accord avec ce que nous venons de voir. Après, la présence de "vous" ou "on" est surprenante puisque ces pronoms personnels sont absents de la table 2 : ils représentent de véritables ruptures syntaxiques qui suivent un arrêt de l'énonciation.


Filled Pause
Left Context
Filled Pause
Right Context
Revision
Right Context
Word # % Word # % Word # %
que 40 4.2 de 53 5.5 d' 34 4.7
et 27 2.8 la 41 4.3 l' 30 4.1
pour 26 2.7 des 38 4.0 la 29 4.0
de 21 2.2 les 33 3.4 vous 25 3.4
avec 19 2.0 l' 26 2.7 de 23 3.2
à 13 1.4 le 23 2.4 on 21 2.9
qui 12 1.3 un 21 2.2 le 19 2.6
          
Discourse Markers Repetitions Revisions
Word # % Word # % Word # %
et 214 9.8 de 72 43 de 45 22
alors 141 6.5 le 40 24 le 39 19
je crois que 50 2.3 et 33 20 à 15 07
mais 44 2.0 je 29 17 que 14 07
donc 36 1.6 un 23 14 la 13 06
eh bien 33 1.5 à 23 14 les 11 05
hein 32 1.5 les 23 14 je 11 05
Table 1: Distribution des contextes les plus fréquents
, pris indépendamment pour les pauses remplies et
les révisions. Les décomptes de fréquence et de pourcentage
des mots les plus fréquemment présents dans les contextes de disfluence
sont donnés
Table 2: Mots le plus fréquemment impliqués dans des disfluences
(marqueurs de discours, répétitions et révisions).
La table donne les nombres et les pourcentages d'occurrence
Malgrè la taille de notre corpus, les conclusions que nous tirons doivent être relativisées par rapport au genre de notre corpus, celui des interviews télévisées, et profiteraient à être comparées avec celles obtenues à partir de parole conversationnelle. Avec cet objectif à l'esprit, nous avons comparé les probabilités d'occurrence de marqueurs de discours tels que "je crois que", "je pense que" à celles obtenues sur d'autres corpus français de transcription à grain fin dont nous disposons -- émissions radiodiffusées (3,6 millions de mots) et conversation téléphoniques (1 million de mots). Nous remarquons que pour les personnes interviewées nous sommes proches des valeurs estimées pour la parole conversationnelle, tandis que pour les journalistes nous somme même en dessous les valeurs estimées pour les émission radiodiffusées. Dans un futur proche, nous avons l'intention d'étudier la relation entre les disfluences et les tours de parole, la position des disfluences dans les unités phrastiques ainsi que l'influence de la lutte pour la prise de parole sur les disfluences. Enfin nous pensons que ce genre d'étude pourrait être amélioré par l'apport d'information complémentaires provenant de l'étude du regard ou des mouvements des protagonistes, puisque nous disposons des enregistrements vidéo des interviews.

La mise a jour de lexique et l'interpolation de modèles de langage, à partir de ressources textuelles a priori apparentées, permet déjà d'obtenir des taux d'erreur de transcription relativement bas. Mais la prise en compte des disfluences peut permettre d'améliorer encore les modèles de parole spontanée puisque les disfluences sont responsables de près de la moitié des erreurs d'alignement entre les transcriptions à destination de la presse et les transcriptions exactes, bien que leur impacte sur le taux d'erreur de transcription soit relativement faible.
Des corpus apparentés qui peuvent être rendus parallèles comme celui utilisé dans [Adda et al. 03] se trouvent relativement facilement (interviews de personnalités publiques, archives de débats publiques, par ex. débats parlementaires). Notre travail montre qu'il est relativement facile d'aligner automatiquement des transcriptions produites automatiquement avec des transcriptions approchées en s'appuyant sur des îlots de confiances constitués des sous-séquences de mots identiques. Nous pouvons ainsi fournir des brouillons de transcription aux annotateurs humains avec un coût restreint, d'autant plus utiles que les parties qui nécessitent une vérification peuvent être automatiquement identifiées et indiquées à l'annotateur (voir Figure 2).

Références
[1] Philippe Boula de Mareüil, Benoît Habert, Frédérique Bénard, Martine Adda-Decker, Claude Barras, Gilles Adda, and Patrick Paroubek. A quantitative study of disfluencies in French broadcast interviews. In Proceedings of Disfluency In Spontaneous Speech (DISS) Workshop, Aix-en-Provence, September 2005.
[2] Claude Barras, Gilles Adda, Martine Adda-Decker, Benoît Habert, Philippe Boula de Mareüil and Patrick Paroubek. Automatic Audio and Manual Transcripts Alignment, Time-code Transfer and Selection of Exact Transcripts. In LREC, Lisbon, May 2004.
[3] Martine Adda-Decker, Benoît Habert, Claude Barras, Gilles Adda, Philippe Boula de Mareüil, and Patrick Paroubek. Une étude des disfluences pour la transcription automatique de la parole spontanée et l'amélioration des modèles de langage. In JEP, Fez, April 2004.
[4] M. Adda-Decker, B. Habert, C. Barras, G. Adda, P. Boula de Mareüil and P. Paroubek « A disfluency study for cleaning spontaneous speech automatic transcripts and improving speech language models », Disfluency in Spontaneous SpeechWorkshop, p. 67-70, 2003, Robert Eklund (ed), Göteborg, Sweden
[5] Stéphanie Strassel, Simple Metadata Annotation Specification Linguistic Data Consortium, 2003, Annotation Guide, Version 5.0 - http://www.ldc.upenn.edu/Projects/MDE/


[ Dérouler vers : Contenu, Menus, Bannière, Aide à la navigation. ]

[ Dérouler vers : Contenu, Menus, Bannière, Aide à la navigation. ]