|
|
|
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
|

A plus court terme, les activités actuelles de COPTE portent sur la combinaison de traitements spécifiques à l'oral et à l'écrit sur des ressources apparentées. Nous utilisons des transcriptions destinées à la presse de débats politiques télévisés, fournis par l'INA, pour améliorer la performance des systèmes de transcription automatique. Un accent particulier est mis sur l'étude du traitement des disfluences (répétitions, révisions, hésitation, etc.) sur un corpus de 10 heures de programmes télévisé des années 90. Lors de chaque émission, un politicien ou une personnalité publique est interviewée par plusieurs journalistes. Nous disposons des transcriptions à destination de la presse de ces émissions. Elles contiennent un transcription très précise des paroles enregistrées avec l'objectif de refléter exactement l'intention du locuteur plutôt que ses paroles exactes. En particulier, les hésitations, reformulations et les phrases tronquées sont souvent omises ou reformulées. Néanmoins, ces transcriptions restent globalement suffisamment proches de l'énoncé original, puisque qu'elles sont utilisées pour faire des citations des passages marquants. La production de transcriptions débarrassées des disfluences est un des objectifs actuels de la recherche en transcription automatique de la parole, L' annotation des disfluences est un premier pas vers l'organisation de campagnes telles que celles organisées par le NIST sur les transcriptions enrichies (http://nist.gov/speech/tests/rt/index.htm). Le type de données produites par ces systèmes de transcription enrichie de l'oral, sans disfluence et segmentées en petits groupes complets d'informations (phrases simples) sont très utiles pour des traitement ultérieurs sur leur contenu informationnel.
Comme première étape, les transcriptions de presse ont été alignées avec le signal de parole. Ensuite, 10% du corpus total (env. 10.000 mots) a été corrigé à la main pour fournir une transcription exacte contenant tous les évènements audibles.
L'annotation des disfluences a été faite en suivant les recommandations du Linguistic Data Consortium (LDC) Une particularité des débats politiques ou des interviews polémiques est l'occurrence relativement fréquente de luttes pour la prise de parole parmi les intervenants. Les portions de parole superposée et les disfluences qui leurs sont associées sont donc relativement fréquentes dans notre corpus. Nous avons classé les disfluences en : pauses remplies (transcrites "euh" en français), marqueurs de discours, marques d'édition de l'orateur a propos de son propre discours, a parte, répétitions, révisions, hésitations...
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Table 1: Distribution des contextes les plus fréquents
, pris indépendamment pour les pauses remplies et les révisions. Les décomptes de fréquence et de pourcentage des mots les plus fréquemment présents dans les contextes de disfluence sont donnés |
Table 2: Mots le plus fréquemment impliqués dans des disfluences
(marqueurs de discours, répétitions et révisions). La table donne les nombres et les pourcentages d'occurrence | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
La mise a jour de lexique et l'interpolation de modèles de langage, à
partir de ressources textuelles a priori apparentées, permet déjà
d'obtenir des taux d'erreur de transcription relativement bas. Mais
la prise en compte des disfluences peut permettre d'améliorer encore
les modèles de parole spontanée puisque les disfluences sont
responsables de près de la moitié des erreurs d'alignement entre les
transcriptions à destination de la presse et les transcriptions
exactes, bien que leur impacte sur le taux d'erreur de transcription
soit relativement faible.
Des corpus apparentés qui peuvent être rendus parallèles comme
celui utilisé dans [Adda et al. 03] se trouvent
relativement facilement (interviews de personnalités publiques,
archives de débats publiques, par ex. débats parlementaires). Notre
travail montre qu'il est relativement facile d'aligner automatiquement
des transcriptions produites automatiquement avec des transcriptions
approchées en s'appuyant sur des îlots de confiances constitués des
sous-séquences de mots identiques. Nous pouvons ainsi fournir des
brouillons de transcription aux annotateurs humains avec un coût restreint,
d'autant plus utiles que les parties qui nécessitent une vérification peuvent
être automatiquement identifiées et indiquées à l'annotateur (voir Figure 2).
Références
[1] Philippe Boula de Mareüil, Benoît Habert, Frédérique
Bénard, Martine Adda-Decker, Claude Barras, Gilles Adda, and Patrick
Paroubek. A quantitative study of disfluencies in French broadcast interviews.
In Proceedings of Disfluency In Spontaneous Speech (DISS) Workshop, Aix-en-Provence,
September 2005.
[2] Claude Barras, Gilles Adda, Martine Adda-Decker, Benoît Habert,
Philippe Boula de Mareüil and Patrick Paroubek. Automatic Audio and
Manual Transcripts Alignment, Time-code Transfer and Selection of Exact
Transcripts. In LREC, Lisbon, May 2004.
[3] Martine Adda-Decker, Benoît Habert, Claude Barras, Gilles
Adda, Philippe Boula de Mareüil, and Patrick Paroubek. Une étude
des disfluences pour la transcription automatique de la parole spontanée
et l'amélioration des modèles de langage. In JEP, Fez, April
2004.
[4] M. Adda-Decker, B. Habert, C. Barras, G. Adda,
P. Boula de Mareüil and P. Paroubek « A disfluency study for
cleaning spontaneous speech automatic transcripts and improving speech
language models », Disfluency in Spontaneous SpeechWorkshop,
p. 67-70, 2003, Robert Eklund (ed), Göteborg, Sweden
[5] Stéphanie Strassel, Simple Metadata
Annotation Specification Linguistic Data Consortium, 2003, Annotation
Guide, Version 5.0 - http://www.ldc.upenn.edu/Projects/MDE/