Actualités

TLP

Membres : Laurence Devillers, Gilles Adda, Claude Barras, Eric Bilinski (P2I), Caroline Etienne, Joseph Mariani, Sophie Rosset (ILES), Ioana Vasilescu

Les activités autour du thème « Dimensions affectives et sociales des interactions parlées avec des (ro)bots et enjeux éthiques» ont été concentrées sur trois axes : le premier axe porte sur la robustesse de la détection des émotions à partir d'indices paralinguistiques et l'utilisation de ces systèmes dans les interactions avec des robots, le deuxième axe porte sur l'interaction affective avec des machines en utilisant des théories en linguistique sur l'interaction, en sociologie sur les rites sociaux, en psychologie cognitive sur les modèles d'évaluation et la théorie des états mentaux, et enfin le troisième axe porte sur le besoin de réflexions éthiques autour de la modélisation affective et le pouvoir de manipulation par les machines vocales (chatbot, robots sociaux, objets vocaux connectés) dans la société.

Les sujets de recherche principaux sont la perception et l’interprétation des signaux émotionnels et sociaux en contexte dans l'interaction orale avec des bots ou des robots. La détection des émotions est effectuée à partir d’indices non verbaux principalement acoustiques alliés à la détection d'indices linguistiques. Les performances des modèles (SVM, réseaux de neurones, deep learning) et leur pouvoir de généralisation dépendent de la qualité et quantité des données d’entraînement. Notre travail de recherche sur les émotions est fondé sur l'utilisation de matériel spontané « real-life ». L'équipe a collecté et analysé un grand nombre de bases de données dans différents contextes permettant des études cross-corpus : dans des centres d’appels pour des consultations financières, des appels d’urgence médicale ou encore lors d’interactions humain-robot avec des personnes âgées dans des maisons de retraite. Les expressions émotionnelles sont extrêmement variables d’un individu à l’autre, d’une situation à l’autre. Nous étudions ces facteurs de variabilité (âge, sexe, tâche, personnalité, santé, lieu, rôle, etc.) et comparons différentes approches d'apprentissage dans l'interaction robotique. L'utilisation des robots conversationnels est assez récente et peu contextualisée.

Nous visons à former des machines intelligentes capables de traiter des dimensions affectives et sociales dans l'interaction avec des humains en contexte dans un espace physique et social. Dans l'interaction, un profil de l’utilisateur est construit dynamiquement à partir du comportement expressif non verbal détecté et du contexte pendant l’interaction. Ce profil est utilisé pour modifier le comportement de la machine qui s’adapte ainsi à l’utilisateur. Le rôle de l'humour dans l'interaction humain-machine a fait l'objet de travaux récents. Des tests ont été menés auprès de personnes âgées pour des applications de robots compagnons avec les robots Pepper et Nao à l'hôpital Broca et dans des EHPAD avec des gérontologues et des ergothérapeutes dans le cadre de deux projets JOKER et ROMEO2. Nous avons monté le projet EU-Chistera JOKER (2013-2018) et participé au projet BPI ROMEO2 (2013-17), qui faisait suite au projet FUI ROMEO.

  • Cinq thèses ont été soutenues dans cette période sur des sujets autour des interactions émotionnelles : C. Chastagnol (Reconnaissance automatique des dimensions affectives dans l'interaction orale homme-machine pour des personnes dépendante) en 2013, A. Delaborde (Modélisation du profil émotionnel de l’utilisateur dans les interactions parlées Humain-Machine) en 2013, M. Soury (Détection multimodale du stress pour la conception de logiciels de remédiation) en 2014, F. Yang (Détection de marqueurs affectifs et attentionnels de personnes âgées en interaction avec un robot) en 2015 et L. Béchade (L’humour dans les interactions sociales homme-robot) en 2018.

Des robots et des hommesL'interaction avec des robots affectifs et sociaux a un fort pouvoir de modification du comportement des personnes qui vont les utiliser. Nous parlons de co-évolution humain-machine : la machine s'adapte à l'humain et l'humain s'adaptera à la machine. Ces sujets sont importants à anticiper dans la société, ce sujet dépasse la communauté scientifique et a été diffusé à une large audience dans le livre "Des robots et des hommes : mythes, fantasmes et réalité", paru chez Plon en 2017.

Des travaux sur l’éthique de la conception de ces systèmes doués d’intelligence artificielle sont en cours à la fois sur la transparence et explicabilité des approches d'apprentissage "deep learning" mais aussi sur le pouvoir de manipula­tion dans l'interaction avec des machines affectives. Nous sommes impliqués dans le comité de réflexion sur l'éthique de la recherche en numérique CERNA d'Allistène. Plusieurs rapports ont été produits sur l'éthique de la recherche en robotique, sur l'éthique de la recherche en apprentissage machine. Des recherches en philosophie des sciences sont également menées en collaboration avec des philosophes de Sorbonne Université. Par ailleurs, l’équipe a été impliquée dans l’ISN sur le pôle coévolution humain-machine3 pour mener des recherches interdisciplinaires avec des sociologues et des juristes (ISN T2R (2015-2016), ISN IHR (2015-2016)). Nous avons actuellement un nouveau projet financé par l'institut de convergence interdisciplinaire de Paris-Saclay DATAIA4 sur la manipulation incitative par les machines affectives (Bad Nudge, Bad Robot) avec des économistes et nous sommes impliqués dans IEEE Global Initiative on Ethics of Autonomous and Intelligent Systems et en charge d'un groupe de réflexion P7008 sur les standards et normes autour du "nudging". Un axe transversal "ALLIÉ: Alliance entre Langue, Linguistique, Interaction affective humain-machine et Éthique" a d'ailleurs été proposé sur ce sujet au département CHM du LIMSI.

Des travaux sur l’éthique de la conception de ces systèmes doués d’intelligence artificielle sont en cours à la fois sur la transparence et explicabilité des approches d'apprentissage "deep learning" (Thèse CIFRE de C. Etienne (en cours), sur le pouvoir de manipulation dans l'interaction avec des machines affectives mais aussi sur la réflexion nécessaire en philosophie des sciences sur l’appréhension de la réalité technologique des interactions homme-machine. L. Devillers est impliquée dans le comité de réflexion sur l'éthique de la recherche en numérique CERNA d'Allistène depuis 2015. Plusieurs rapports ont été produits sur l'éthique de la recherche en robotique, sur l'éthique de la recherche en appren­tissage machine (L. Devillers et al., CERNA 2017 (FR) 2018 (AN)). Par ailleurs, l’équipe a été impliquée dans l’ISN sur le pôle co-évolution humain-machine (http://digitalsocietyinstitute.com/fr) pour mener des recherches interdisciplinaires avec des sociologues et des juristes (ISN T2R (2015-2016), ISN IHR (2015-2016)). Nous avons actuellement un nouveau projet financé par l'institut de convergence interdisciplinaire de Paris-Saclay DATAIA sur la manipulation incitative par les machines affectives (Bad Nudge, Bad Robot) avec des économistes et juristes (2 thèses débuteront en parallèle en infor­matique et en économie en octobre 2018) et nous sommes impliqués dans IEEE Global Initiative on Ethics of Autonomous and Intelligent Systems (L. Devillers est en charge d'un groupe de réflexion P7008 sur les standards et normes autour du "nudging"). Un travail en philosophie des sciences est en cours avec le co-encadrement de S. Volkov (2016-) sur le sujet « Vers un nouveau paradigme de l’interaction humain-machine » avec la philosophe des sciences A. Barberousse (Sorbonne Université). L’objectif de la thèse est l’analyse philosophique du problème de l’interaction homme-robot (IHR).

Membres : Gilles Adda, Martine Adda-Decker (LPP), Claude Barras, Eric Bilinski (P2I), Philippe Boula de Mareüil, Hervé Bredin, Jean-Luc Gauvain, Lori lamel, Joseph Mariani, Sophie Rosset (ILES), Ioana Vasilescu, Djegdjiga Amazouz

L'évaluation comparative est un élément moteur du traitement de la parole depuis plus de 30 ans. Les corpus sont au coeur de ces deux grands paradigmes. Alors que dans le passé, l'utilisation des grands corpus s'est limitée à quelques domaines et langues, la dernière décennie a connu une vraie expansion vers le multilinguisme et la multimodalité. Le développement de corpus et l'organisation d'évaluations sont cruciaux pour la communauté linguistique et posent à leur tour des problèmes scientifiques qui doivent être résolus, tels que les corpus à collecter et comment ils devraient être annotés, ainsi que des questions scientifiques sur la façon de récompenser leurs promoteurs et la façon d'assurer l'éthique dans le processus de collecte. Ce thème traite de l'aspect théorique et des problèmes pratiques concernant la collecte, l'annotation et la diffusion de grands corpus multilingues.

À la suite du projet Quaero, où 35 transcripteurs ont trancrit plus de 1.700 heures de parole (émissions radio-télévisées, séminaires,...) en 25 langues, nous nous orientons maintenant vers des corpus spécifiques, pour des problèmes spéci­fiques, et avec une finalité double, à la fois pour des fins linguistiques et pour développer des systèmes. Nous pouvons citer par exemple le développement de corpus français-algérien pour étudier le code-switching (projet ANR/Salsa) ou le développement d'un corpus en roumain pour étudier la tâche Diapix (collaboration LIMSI- Labex EFL). Un exemple marquant de la volonté de faire collaborer les technologies et les études linguistiques se trouve dans le développement de corpus en trois langues bantoues (mbochi, basaa, myene) contenant plus de 50 heures dans chacune des langues, chaque donnée originale étant répétée minutieusement et traduite oralement, dans le but de développer les outils d'aide à la documentation des langues non-écrites (projet ANR-DFG BULB).

La classification des erreurs, le diagnostic et la mesure de l'impact au moyen de tests perceptifs constituent des étapes importantes pour identifier les faiblesses des modèles des systèmes de transcription de pointe et préparer les géné­rations futures de systèmes de traitement du langage parlé (projet ANR/VERA). L'annotation des données multimédia volumineuses nécessite la mise en place d'infrastructures innovantes ; nous avons développé pour cela dans le cadre du projet CHISt-ERA/Camomile, une plateforme d'annotation collaborative, pour les données 3M (multilingues, multimédias, multimodales) qui a été utilisée dans le cadre d'évaluations internationales.

En parallèle de nos activités de production de corpus, des recherches plus générales sur les ressources linguistiques ont été menées en relation avec les réseaux européens FLaReNet et META-NET. Ils traitent de la compilation des ressources linguistiques mentionnées dans les communications présentées lors de conférences (LRE Map), de la comparaison du statut entre les langues (Matrices et tableaux linguistiques) et de la détection des lacunes pour certaines langues (Langues moins ressources), de l'identification unique d'une ressource linguistique et du calcul de son facteur d'impact.

Elle concerne également la dimension éthique de la production et de la distribution des ressources langagières dans le contexte d'un intérêt croissant au niveau international pour le partage des données et le Crowdsourcing, avec le déve­loppement en collaboration avec Aproged, Cap Digital, AFCP et ATALA une charte de bonne pratique « Éthique et Big Data ». Cette activité se poursuit par l'organisation de journées d'études, de blog, et d'un numéro spécial TAL 57(2) : TAL et éthique (Karën Fort, Gilles Adda et Kevin Bretonnel Cohen)

Membres : Lori Lamel, Gilles Adda, Eric Bilinski (P2I), Jean-luc Gauvain, Ioana Vasilescu

Texte en cours

 

 

Projets récents

Membres : François Yvon, Gilles Adda, Alexandre Allauzen, Marianna Apidianaki, Aïna Gari, Souhir Gahbiche-Braham, Kevin Löser, Hélène Maynard, Syrielle Montariol, Ahn-Khoa Ngo-Ho, Pooyan Safari, Guillaume Wisniewski.

Les activités de recherche dans ce thème se focalisent sur le développement, la spécialisation et l'évaluation de méthodologies d'Apprentissage Artificiel (AA), pour les adapter aux spécificités du traitement automatique des langues et de la parole. Ces méthodologies sont évaluées sur une application finalisée, la Traduction Automatique (TA), qui comprend de nombreuses tâches intermédiaires: l'étiquetage en parties du discours, l'analyse syntaxique de surface ou profonde, la reconnaissance d'entités nommées, la désambiguïsation sémantique, qui toutes peuvent être abordées avec les outils de l'apprentissage statistique.
En plus de leur complexité intrinsèque, ces problèmes impliquent de traiter des données (i) très volumineuses, (ii) hétérogènes, (iii) pouvant être complètement ou partiellement annotées, voire non-annotées; de plus, les données linguistiques sont souvent (iv) structurées et peuvent être décrites par (v) des myriades de caractéristiques linguistiques, présentant (vi) des
dépendances complexes. Les questions (i)-(vi) correspondent aux principaux défis scientifiques auxquels nous nous consacrons. De plus, et cela nous distingue de nombreuses équipes qui étudient ces questions, nous avons un second objectif, qui est de faire progresser l'état de l'art en traduction automatique, en participant aux évaluations internationales du domaine; ceci nous impose en particulier de maintenir nos propres logiciels de traduction automatique.

Membres : Ioana Vasilescu, Philippe Boula de Mareüil, Gilles Adda, Alexandre Allauzen, Eric Bilinski, Lori Lamel, Hélène Maynard, Albert Rilliard, Sophie Rosset (ILES) et Frédéric Vernier (AMI). En collaboration avec Martine Adda-Decker (LPP)

Les activités autour du thème « Perception et traitement automatique de la variation dans la parole » ont comme objectif de circonscrire et de modéliser la variation présente dans la parole, qu'il s'agisse de variation diatopique, diastratique, diaphasique ou diachronique. La méthode adoptée comprend une analyse statistique de grands corpus oraux (utilisant notamment des systèmes de reconnaissance de la parole comme outils d'exploration linguistique) et l'exploitation de la composante perceptive, via des comparaisons humain/machine dans différentes configurations expérimentales. Ces dernières années, nous avons concentré nos efforts autour de deux axes.


D'une part, nous avons abordé la variation orale dans des grands corpus multilingues, dans différentes langues et notamment dans les langues romanes (HDR de I. Vasilescu). Nous avons décrit des instances de variation mais également abordé des questions fondamentales telles que le statut phonologique de certaines unités phonétiques fortement fluctuantes (souvent à l'origine d'erreurs de transcription automatique de la parole), la variation synchronique vs les changements phonétiques (Vasilescu et al, Linguistic Vangard), l'interface phonétique vs morpho-phonologique ou encore les paramètres acoustiques du code switching français/arabe. Pour ce qui est de la perception, nous avons continué d'exploiter des paradigmes permettant de mieux comprendre les défis des systèmes dédiés au traitement de la communication parlé, en nous focalisant sur la catégorisation humaine de la gravité des erreurs de transcription automatique et sur la comparaison humain/système dans la catégorisation des entités nommées.


D'autre part, nous avons poursuivi des activités de documentation des accents et langues régionales via l'acquisition de données permettant de cartographier la variation diatopique (en particulier en français). Le fruit de cette seconde activité prend de plus en plus la forme d'atlas dialectologiques des accents et langues régionales de France. Nous avons exploré la notion de phono-style et surtout d'accents (étrangers et régionaux), en partant du français et en élargissant l'éventail de langues étudiées à l'italien, à l'allemand et au portugais. En commençant le plus souvent par des expériences perceptives et en menant en parallèle ou ensuite des analyses acoustiques, nous nous sommes efforcés de mettre en relation ces deux volets perceptif et acoustique. Dans plusieurs études, la recopie de prosodie et l'imitation ont été utilisées, deux paradigmes qui permettent de discerner les aspects prosodiques caractérisant divers styles ou accents. Notre intérêt pour les accents régionaux nous a en outre conduits à investir le champ des langues régionales de France, dans lesquelles nous avons multiplié les enquêtes de terrain (dans plus de 200 points d'enquête). Un atlas sonore a ainsi été mis au point, visant à mettre en valeur la diversité linguistique de la France hexagonale et des Outre-mer, à travers une même histoire, traduite dans nombre de langues et représentée sur une carte interactive, avec une transcription orthographique des enregistrements recueillis. Une soixantaine de langues régionales et non-territoriales (telles le romani et la LSF) est ainsi illustrée, dont la moitié en Océanie. Les enregistrements recueillis ont également contribué à l'identification et à la caractérisation d'accents régionaux en français, à travers des études à grande échelle (à base de crowdsourcing).

Lien vers l'atlas des langues régionales de France :

Atlas sonore

Membres : Hervé Bredin, Gilles Adda, Claude Barras, Camille Guinaudeau, Guillaume Wisniewski, Ruiqing YIN

 Les activités du thème "Caractérisation du locuteur dans un contexte multimédia" se sont développées principalement selon trois grands axes :

  • Les travaux sur la segmentation et le regroupement en locuteurs dans les documents audio, en retrait ces dernières années, ont été relancés. En particulier, il s'agit de repenser les approches classiquement utilisées pour le traitement des journaux radio- ou télé-diffusés, qui atteignent leurs limites quand elles sont appliquées à d'autres types de contenus (films, séries TV, enregistrements de réunions). Dans le cadre du projet ANR-SNSF/ODESSA (2016-2019), nous étudions l'apport des approches neuronales et des techniques d'apprentissage structuré pour le traitement en flux. Nous avons en particulier démontré l'efficacité des réseaux de neurones récurrents pour les tâches de segmentation et représentation des tours de parole.
  • La composante "multimédia" a émergé avec la tâche "Multimodal Person Discovery in Broadcast TV" que nous avons organisée lors des campagnes d'évaluation MediaEval 2015 et 2016 en lien avec le projet CHIST-ERA/CAMOMILE (2012- 2016). Dans ce cadre, nous avons montré qu'il est possible d'identifier de façon non supervisée (c'est-à-dire sans faire appel à des modèles biométriques préalablement entraînés sur des données annotées manuellement) la grande majorité des personnes intervenant à la télévision - en combinant reconnaissance de visage, segmentation et regroupement en locuteur, et reconnaissance optique des noms de personnes. Le projet ANR-DFG/PLUMCOT qui a débuté en 2016 vise à développer cette thématique, et en particulier à étudier l'apport du traitement automatique de la langue pour l'identi¬fication nommée du locuteur : il s'agit ici d'inférer l'identité des personnages à partir de la structure et du contenu des dialogues.
    Enfin, une nouvelle activité portant sur la structuration sémantique de contenus audio-visuels (films, séries TV) a vu le jour, où la composante « traitement automatique de la langue » prend une place importante. Il s'agit de tirer profit des différentes méta-données textuelles (transcription manuelle, sous-titre, résumé, etc.) pour structurer automatiquement ce type de contenu (Bredin et al., J. Multimedia Information Retrieval, 2014). Les premiers travaux dans cette direction ont été menés dans le cadre du projet ANR/MetaDaTV (2015-2018).
  • Un axe transverse portant sur la question de l'évaluation des technologies multimédia rapproche ces trois grands axes thé¬matiques. En particulier, un effort particulier a été mené autour de la question de la recherche reproductible, au travers du développement de la plateforme CAMOMILE d'annotation collaborative de documents multimédia, de la bibliothèque libre pyannote pour l'évaluation des différentes technologies développées, et évidemment de la campagne d'évaluation comparative MediaEval.

Sous-catégories

Page 1 sur 2

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Rapport scientifique

 

Le LIMSI en chiffres

8 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 Université Paris-Sud nouvelle fenêtre

 

Paris-Saclay nouvelle fenêtre


© 2017 LIMSI CNRS