Action transversale VENISE
Virtualité et ENvironnement Immersif pour la Simulation et l'Expérimentation
LIMSI-CNRS, Université Paris-Sud, Bât. 508, B.P. 133, 91403 Orsay cedex (France).

AXE "Interactions multimodales pour une CAO immersive"


Responsables : P. Bourdot, Y. Bellik ;
Chercheurs impliqués : L. Bolot, B. Bossard, A. Braffort, T. Convard, J. Mariani, D. Touraine.

En partant de l'expérience issue du projet MIX3D (Multimodal Interaction in a X environment with a 3D virtual space) qui se développa de 1994 à 1996 au sein du LIMSI, l'objectif est d'élaborer un modèle d'interface immersive et multimodale, générique à diverses configurations de dispositifs de RV, qui permette une coopération fine avec les fonctionnalités et les structures de données avancées d'un système de CAO existant.

L'interaction multimodale en entrée (ou fusion multimodale), est un domaine relativement bien maîtrisé pour bon nombre d'applications. En revanche, dans le contexte des applications 3d, assez peu de travaux en matière d'interfaces multimodales ont abouti à des prototypes pré-industriels. D'un autre côté, l'interaction immersive est susceptible de faire des systèmes CAO de véritables instruments de simulation 3d temps réel pour la conception d'objets. Au demeurant, bon nombre d'interfaces immersives sont enfermées dans une approche méthodologique qui consiste à les concevoir comme une simple extension 3d de nos interfaces traditionnelles (cf. claviers virtuels, menus, boutons et autres widgets 3d). Dans ce domaine, l'approche du LIMSI est fondamentalement de penser que la plupart de ces artifices, qui en l'occurrence polluent souvent l'espace de travail 3d, pourraient être supprimés. L'un des objectifs de cet axe de recherche de l'action transversale VENISE vise donc à mettre au point des solutions robustes pour une gestion multimodale des interactions 3d, et ce, en relation avec des systèmes avancés de reconnaissance ou de traitement des modalités sensori-motrices.

Figure: Module de reconnaissance de gestes du LIMSI interfacé à une bibliothèque CAO existante.

Les solutions étudiées dans le cadre de cette problématique portent tout d'abord sur la conception et l'évaluation d'une architecture distribuée, de type événementielle, susceptible de gérer les phénomènes de latence introduits par lesdits systèmes avancés de certaines de ces modalités (parole, geste). Cela est historiquement la première fonction de l'EVserveur, un gestionnaire distribué d'événements et de périphériques destiné à faciliter le développement d'applications immersives (voir activités de recherche du Thème 1 du groupe ``Geste et Image''). Ensuite, pour qu'un signal reconnu ou traité soit correctement interprété, il convient non seulement que le module chargé de l'interprétation possède une modélisation de la partie du noyau fonctionnel qui lui incombe, mais il faut de plus que cette couche ait un accès aux objets de la base de données active sur l'application. Typiquement, l'interprétation complète de gestes d'interaction 3d suppose de déterminer le ou les objets en relation avec le geste. Dans le contexte d'une application de CAO immersive dont les ressources calculatoires sont distribuées, nous nous proposons donc d'étudier en particulier, comment apporter aux interpréteurs l'information géométrique requise, sans imposer aux ressources de calcul de chaque modalité la gestion complète d'un miroir de la base de données 3d. Par ailleurs, plusieurs autres problèmes seront abordés comme par exemple, la prise en compte de la variabilité des gestes à reconnaître du fait de la taille et de la distance aux objets, ou de la densité de la scène. En traitement de la parole, l'enjeu est de prouver que les interactions de type menu peuvent être définitivement supplantées par des commandes vocales, d'autant que les applications CAO se prêtent assez bien au développement de systèmes multi-locuteurs.

Mais cet axe de VENISE va aussi s'intéresser à la gestion de la multimodalité en sortie. Cette problématique vise à doter le système interactif de mécanismes automatiques (voire de capacités intelligentes) qui lui permettent de sélectionner de manière dynamique et en fonction de divers critères (scène, plate-forme matérielle, utilisateur,...), une forme de présentation pertinente et adaptée pour communiquer une information à l'utilisateur.
Or, dans les systèmes interactifs actuels, on constate que toutes les informations présentées sont prédéterminées dans leurs modalités de sortie. Ainsi, pour attirer l'attention de l'utilisateur sur un objet particulier d'une scène 3d, le développeur de l'application va par exemple décider, une fois pour toutes, d'attribuer une certaine couleur à cet objet, ou de lui affecter un effet de clignotement. Cependant, pour que l'interaction soit efficace lors d'une simulation ou d'une exploration immersive d'informations complexes, on se doit de prendre en compte à la fois le contexte de l'objet (couleurs des objets environnants...) et les paramètres d'observation de la scène virtuelle (direction du regard...).
Nos recherches sur la multimodalité en sortie s'orientent donc vers l'étude et la conception d'architectures de systèmes interactifs capables de supporter des modèles d'interaction dynamiques et adaptatifs. Les méthodes de conception et de spécification actuelles de ces systèmes sont en effet inadaptées à la résolution d'un tel problème car elles ne prennent en compte que la spécification des formes de présentation et négligent complètement la modélisation des contenus sémantiques. Il devient dès lors nécessaire d'avoir une réflexion en profondeur sur le processus de conception des systèmes interactifs ainsi que sur la définition de nouveaux formalismes de spécification capables de supporter ce type de multimodalité. De tels formalismes permettront de mettre en place des mécanismes de renforcement ou au contraire de substitution de modalités (transmodalité) en fonction du contexte d'utilisation. Ainsi, par exemple, le système interactif pourra décider de renforcer un retour d'effort par certaines manifestations visuelles ou alors, en détectant l'absence ou la défaillance d'un périphérique haptique, il pourra remplacer un feedback sensori-moteur par une combinaison d'autres modalités.

_______________

AXE "Interactions multimodales pour une CAO immersive"
Contact : Patrick.Bourdot@limsi.fr
Action transversale VENISE
Copyright LIMSI-CNRS 2002.
Dernière modification :
visiteurs.