Études linguistiques et phonétiques du code-switching français-arabe: analyses de grands corpus et traitement automatique de la parole

Thèse de Djegdjiga AMAZOUZ, sous la direction de Martine Adda-Decker  (LPP-CNRS Sorbonne Nouvelle) et Lori LAMEL (LIMSI-CNRS). Soutenance le 3 décembre 2019 à 14:00

Salle Athena de la Maison de la recherche - Sorbonne Nouvelle, Adresse : 4 Rue des Irlandais, 75005 Paris

Jury

Rudolph Sock, LILPA/IPS, Université de Strasbourg, rapporteur
Kamel Smaili, LORIA, Université de Nancy, rapporteur 
Barbara E. Bullock, University of Texas, examinatrice
Rachid Ridouane, LPP, CNRS Sorbonne Nouvelle, examinateur
Martine Adda-Decker, LPP, CNRS Sorbonne Nouvelle, directrice de thèse
Lori Lamel, LIMSI, CNRS, co-encadrante de thèse

Cette thèse traite du code-switching français-arabe algérien à l'aide d'outils de traitement automatique de la parole. Un corpus de 7h30 de parole de 20 locuteurs bilingues (5h de parole spontanée et 2h30 de parole lue) a été conçu, enregistré et annoté. L'un des premiers défis abordés a consisté à développer des méthodes de traitement des données telles que la segmentation en langues, la transcription du français et de l'arabe algérien. Les méthodes d'alignement automatique de la parole ont été adaptées pour traiter les données du code-switching en combinant deux systèmes d'alignement monolingues, produisant ainsi des transcriptions orthographiques et phonémiques avec des localisations temporelles dans les deux langues. Une expérience a été menée pour détecter automatiquement les changements de langue, mais cela reste un défi, en particulier pour les durées monolingues très courtes. Le second aspect de la recherche de cette thèse porte sur l'influence du système phonologique de la langue A sur la deuxième langue B dans la parole du code-switching, en l'occurrence les productions phonétiques de l'arabe et du français.

Le corpus annoté a été utilisé pour effectuer des études phonétiques sur la variation des voyelles et des consonnes en utilisant un paradigme de discrimination automatique de type ABX. Avec ce paradigme, nos résultats sur la variation de la production correspondent aux hypothèses a priori: considérant les voyelles périphériques /i, a, u/, des taux de variantes plus élevés sont mesurés en arabe algérien (40%) qu'en français (27%). Une comparaison avec des locuteurs de langue maternelle française suggère que les locuteurs bilingues ont des productions de voyelles plus conservatrices que les locuteurs natifs (34%), du moins dans le code-switching. Trois études sur la variation des consonnes ont également été menées: la gemination, l’emphatisation et le voisement. Globalement, les consonnes présentent des tendances similaires à celles des voyelles: 42% de taux de variantes pour l'arabe algérien et 30% pour le français en code-switching, contre 38% pour les natifs français. De futures études utilisant ce corpus novateur pourront contribuer à démêler l'interaction complexe entre la variation phonétique et les systèmes phonologiques chez les bilingues dans le code-switching.

Publications

 

Djegdjiga AmazouzMartine Adda-DeckerLori LamelAddressing Code-Switching in French/Algerian Arabic Speech
Interspeech 2017, Aug 2017, Stockholm, Sweden. pp.62-66, ⟨10.21437/interspeech.2017-1373⟩

 

Djegdjiga AmazouzMartine Adda-DeckerLori LamelThe French-Algerian Code-Switching Triggered audio corpus (FACST)
LREC 2018 11th edition of the Language Resources and Evaluation Conference,, May 2018, Miyazaki, Japan

 

Djegdjiga AmazouzJane WottawaMartine Adda-DeckerLori LamelStudying Vowel Variation in French-Algerian Arabic Code-switched Speech
Interspeech 2018, Sep 2018, Hyderabad,, India. ⟨10.21437/interspeech.2018-2381⟩

 

Jane WottawaDjegdjiga AmazouzMartine Adda-DeckerLori LamelStudying Vowel Variation in French-Algerian Arabic Code-switched Speech
Interspeech 2018, Sep 2018, Hyderabad, India. pp.2753-2757, ⟨10.21437/Interspeech.2018-2381⟩

 

Djegdjiga AmazouzMartine Adda-DeckerLori LamelAddressing Code-Switching in French/Algerian Arabic Speech
Annual Conference of the International Speech Communication Association , ISCA, Aug 2017, Stockholm, Sweden

 

Djegdjiga AmazouzMartine Adda-DeckerLori LamelThe French-Algerian Code-Switching Triggered audio corpus (FACST)
International Conference on Language Resources and Evaluation, ELRA, May 2018, Miyazaki, Japan

   

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Rapport scientifique

 

Le LIMSI en chiffres

7 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 

Paris-Saclay nouvelle fenêtre


Logo DataIA

 

© 2015 LIMSI CNRS