Félix Bigand soutient sa thèse lundi 22 novembre à 15:00, sous la direction d'Annelies Braffort et Elise Prigent
A l'adresse suivante : Salle de conférence et visioconférence partielle - LISN Campus Universitaire bâtiment 507, Rue du Belvédère, 91400 Orsay. La soutenance sera effectuée en Français.
Lien visioconférence : https://bbb.lisn.upsaclay.fr/b/fel-t0r-ax0-ghc
Pass sanitaire COVID : (1) peut être requis pour la soutenance, en fonction de l'effectif présent ; (2) requis pour le pot de thèse qui suivra la soutenance, peu importe l'effectif.
Composition du jury :
Hervé Abdi | Full professor | School of Behavioral and Brain Sciences, University of Texas, Dallas | Rapporteur / Examinateur |
Frédéric Bevilacqua | Directeur de recherche | STMS, IRCAM, CNRS, Sorbonne Université | Rapporteur / Examinateur |
Bastien Berret | Professeur des Universités | CIAMS, Université Paris-Saclay, Institut Universitaire de France | Examinateur |
Marion Blondel | Chargée de recherche | SFL, CNRS, Université Paris8 | Examinatrice |
John McDonlad | Associate professor | School of Computing, DePaul University, Chicago | Examinateur |
Elise Prigent | Maîtresse de conférences | LISN, Université Paris-Saclay | Co-encadrante de thèse |
Annelies Braffort | Directrice de recherche | CNRS, LISN, Université Paris-Saclay | Directrice de thèse |
Mots clés : Mouvement, Apprentissage automatique, Extraction de caractéristiques, Capture de mouvement, Langue des Signes, Perception
Malgré le grand nombre de personnes sourdes utilisant les langues des signes (LS)
pour communiquer, la majorité des outils actuels de communication ne reposent que
sur les langues parlées ou écrites. De nombreux obstacles technologiques doivent
être surmontés afin d’outiller les LS de la même manière que les langues parlées, en
particulier en développant des modèles de génération des LS.
Les progrès des systèmes de capture de mouvement (mocap) ont considérablement
amélioré les modèles de génération des LS, permettant d’animer des signeurs
virtuels réalistes et compréhensibles. Ils ont cependant soulevé un problème inattendu,
celui de l’identification du signeur à partir de ses mouvements. Comparé
au domaine auditif où un locuteur peut rester anonyme si l’on modifie certains aspects
de sa voix, on ne sait que peu de choses sur les aspects du mouvement qui
permettent d’identifier un signeur.
L’identité peut être extraite de mouvements humains, comme la marche ou la
danse. Qu’en est-il de la LS, dont les mouvements ne sont pas seulement contraints
par des règles biomécaniques, mais également par des règles linguistiques ? Cette
thèse vise à (1) comprendre comment la structure complexe des mouvements de
la LS peut être modélisée ; (2) évaluer si les humains parviennent à identifier des
signeurs à partir de leurs mouvements ; (3) déterminer les aspects du mouvement
permettant l’identification du signeur et (4) développer des modèles informatiques
pour contrôler l’identité lors de la génération du mouvement des LS. Sur la base
d’un corpus de mocap 3D en Langue des Signes Française, cette thèse fournit cinq
contributions principales.
Premièrement, nous avons étudié le contenu spectral des données mocap issues
de discours spontanés en LSF. Selon cette étude, le mouvement de la LSF peut être
limité à une bande passante de 0-12 Hz, ce qui est considérablement plus large que
les estimations antérieures réalisées sur des signes isolés. Ces résultats suggèrent
que le mouvement de la LS implique des fréquences plus élevées en conditions
réelles.
Nous avons également utilisé l’analyse en composantes principales (PCA) pour
décomposer des discours spontanés de LS en mouvements principaux (PM). Les
PM extraits séparément pour chaque signeur et ceux extraits pour l’ensemble des
six signeurs sont très similaires, et expliquent la même quantité de variance. Ces
résultats suggèrent que le LS doit avoir une structure commune, qui peut être décomposée
en éléments simples à l’aide de la PCA.
Une étude de perception visuelle a ensuite évalué la capacité de participants
sourds à identifier des signeurs à partir de stimuli « Point-Light ». En combinant
des analyses informatiques des données mocap et des réponses des participants, les
résultats de cette étude ont révélé que les données mocap contiennent suffisamment
d’information pour identifier les signeurs, au-delà des indices liés à la morphologie.
Nous avons ensuite entraîné un modèle d’apprentissage automatique pour l’identification
de signeurs, à partir de statistiques des données mocap. La performance
du modèle n’a pas été affectée lorsque les informations sur la taille et la forme des
corps des signeurs ont été normalisées. Elle est restée plus de cinq fois supérieure
au niveau du hasard lors de la normalisation de la posture. Ces résultats démontrent
que l’identité d’un signeur peut être caractérisée par des statistiques liées à la
dynamique, au-delà des informations liées à la taille, la forme et la posture.
Enfin, un algorithme de synthèse est proposé afin de re-synthétiser des mouvements
de LS tout en modifiant l’identité du signeur. Pour ce faire, les statistiques
spécifiques liées à l’identité (cf. modèle ci-dessus) sont manipulées. Par exemple,
l’impact des caractéristiques spécifiques à l’identité du signeur peut être réduit (i.e.
anonymisation), et l’importance des caractéristiques spécifiques à l’identité d’un
autre signeur peut être augmentée (i.e. conversion d’identité).