Actualités

Détection de marqueurs affectifs et attentionnels de personnes âgées en interaction avec un robot

Thèse de Fan YANG (groupe TLP)

Résumé : Ces travaux de thèse portent sur la détection audio-visuelle de marqueurs affectifs (rire et sourire) et attentionnels de personnes âgées en interaction sociale avec un robot.
Dame agee
Pour comprendre efficacement et modéliser le comportement des personnes très âgées en présence d'un robot, des données pertinentes sont nécessaires. J’ai participé à la collection d’un corpus de personnes âgées notamment pour l’enregistrement des données visuelles. Le système utilisé pour contrôler le robot est un magicien d’Oz, plusieurs scénarios de conversation au quotidien ont été utilisés pour encourager les gens à coopérer avec le robot. Ces scénarios ont été élaborés dans le cadre du projet ROMEO2 avec l’association Approche.
Nous avons décrit tout d'abord le corpus recueilli qui contient 27 sujets de 85 ans en moyenne pour une durée totale de 9 heures, les annotations et nous avons discuté des résultats obtenus à partir de l'analyse des annotations et de deux questionnaires.
Ma recherche se focalise ensuite sur la détection de l'attention et la détection de rire et de sourire. Les motivations pour la détection de l'attention consistent à détecter quand le sujet ne s’adresse pas au robot et à adapter le comportement du robot à la situation. Après avoir considéré les difficultés liées aux personnes âgées et les résultats d'analyse obtenus par l'étude des annotations du corpus, nous nous intéressons à la rotation de la tête au niveau de l'indice visuel et à l'énergie et la qualité de voix pour la détection du destinataire de la parole. La détection de rire et sourire peut être utilisée pour l'étude sur le profil du locuteur et de ses émotions. Mes intérêts se concentrent sur la détection de rire et sourire dans la modalité visuelle et la fusion des informations audio-visuelles afin d'améliorer la performance du système automatique.
Les expressions sont différentes des expressions actées ou posés à la fois en apparence et en temps de réaction. La conception d’un système qui marche sur les données réalistes des personnes âgées est encore plus difficile à cause de plusieurs difficultés à envisager telles que le manque de données pour l’entrainement du modèle statistique, l’influence de la texture faciale et de la façon de sourire pour la détection visuelle, l’influence de la qualité vocale pour la détection auditive, la variété du temps de réaction, le niveau de compréhension auditive, la perte de la vue des personnes âgées, etc.
Les systèmes de détection de la rotation de la tête, de la détection de l'attention et de la détection de rire et sourire sont évalués sur le corpus ROMEO2 et partiellement évalués (détections visuelles) sur les corpus standard Pointing04 et GENKI-4K pour comparer avec les scores des méthodes de l'état de l'art.
Nous avons également trouvé une corrélation négative entre la performance de détection de rire et sourire et le nombre d’évènement de rire et sourire pour le système visuel et le système audio-visuel. Ce phénomène peut être expliqué par le fait que les personnes âgées qui sont plus intéressées par l’expérimentation rient plus souvent et sont plus à l’aise donc avec des poses variées. La variété des poses et le manque de données correspondantes amènent des difficultés pour la reconnaissance de rire et de sourire pour les systèmes statistiques.
Les expérimentations montrent que la rotation de la tête peut être efficacement utilisée pour détecter la perte de l’attention du sujet dans l’interaction avec le robot. Au niveau de la détection de l’attention, le potentiel d'une méthode en cascade qui utilise les modalités d'une manière complémentaire est montré. Cette méthode donne de meilleurs résultats que le système auditif seul. Pour la détection de rire et sourire, en suivant le même protocole « Leave-one-out », la fusion des deux systèmes monomodaux améliore aussi significativement la performance par rapport à un système monomodal au niveau de l’évaluation segmentale.

Mots clés : attention, marqueur affectif, rire et sourire, détection multimodale, personne âgée, corpus réaliste, interaction sociale avec robot

Date de soutenance

Vendredi 23 octobre 2015 à 14h00, salle de conférences du LIMSI

Membre du jury

Directeurs de thèse :

Claude BARRAS Maitre de conférence (Paris Sud,LIMSI,CNRS)
Laurence DEVILLERS Professeur (Paris Sorbonne IV, LIMSI, ⁠CNRS)

Rapporteurs :

Mohamed CHETOUANI Professeur (UPMC, ISIR)
Björn W. SCHULLER Professeur (Imperial College London)
Examinateurs :

Anne VILNAT Professeur (Paris Sud,LIMSI, ⁠CNRS)
Georges QUENOT Directeur de recherche (LIG-⁠CNRS)

 

 Publications

Mohamed A. Sehili, Fan Yang, Laurence Devillers, Attention Detection in Elderly People-Robot Spoken Interaction (2014)

Mohamed A. Sehili, Fan Yang, Violaine Leynaert, Laurence Devillers, A corpus of social interaction between Nao and elderly people (2014)

LIMSI
Campus universitaire bât 508
Rue John von Neumann
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Le LIMSI en chiffres

10 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 Université Paris-Sud nouvelle fenêtre

 

Paris-Saclay nouvelle fenêtre