Rechercher  


Version française English version
INS2I INSIS Annuaire LIMSI
   
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
Logo LIMSI
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur

[ Dérouler vers : Contenu, Menus, Bannière, Aide à la navigation. ]

Réalité virtuelle et augmentée & interfaces audio

Présentation globale

Au cours de la dernière décénnie, la réalité virtuelle et la réalité augmentée ont pris une place de plus en plus importante dans notre vie courante. En effet, au travers des médias, des outils de simulation et des outils d'aide à la personne, les dispositifs de rendus audio-visuels ont évolué de façon de façon significative pour répondre à des besoins divers.

Cependant, la dimension spatiale de la modalité audio est encore relativement peu employée et peut s'avérer bénéfique pour de nombreuse applications audio-visuelles. Premièrement il a été montré que la qualité perçue d'un rendu audio-visuel est dépendante de la qualité de rendu des deux modalités. Ainsi l'ajout de son 3D à des applications existantes peut permettre une amélioration sensible de la qualité perçue du rendu proposé par ces dispositifs. D'autre part, l'ajout de son spatialisé à une scène complexe nous en permet une interprétation plus facile.

L'objet du sous-thème Réalité virtuelle et augmentée et interfaces audio est donc d'étudier quel peut être l'impact du son 3D pour ces différents types applications.

Le sous-thème est structuré autour de trois projets:

  • Le projet NAVIG: Le but de ce projet est d'augmenter le rendu audio de personnes non-voyantes pour les guider dans leur quotidien sans nuire à leur comprehension auditive de l'environnement qui les entoure.
  • Le SMART-I²: Le SMART-I² est un dispositif de rendu audio-visuel spatialisé de haute qualité. L'objectif de ce projet est d'augmenter l'intelligibilité et la sensation d'immersion dans les interfaces audio-visuelles pour la réalité virtuelle.
  • Rendu audio-visuel pour la navigation multimédia: Cette thématique cherche à améliorer les interfaces d'exploration de bases de données en ajoutant du son 3D et en adaptant des métaphores issues du domaine de la visualisation d'information.
navig

Présentation du projet

Le projet ANR-NAVIG a pour objectif d'augmenter l'autonomie des déficients visuels dans une action primordiale et particulièrement problématique : la navigation.

Le consortium est composé de :

  • 3 équipes de recherches :
    1. IRIT (responsable du projet): Interaction et systèmes de suppléance pour personnes handicapées.
    2. CerCo: Neuroscience de la vision humaine.
    3. LIMSI-CNRS: Perception auditive, cognition spatial, ergonomie et réalité augmentée .
  • 2 PME toulousaines :
    1. SpikeNet Technology: Vision artificielle.
    2. NAVOCAP: Géolocalisation pour piétons.
  • Un centre d'éducation spécialisé pour déficients visuels : IJA.
  • La communauté d'agglomérations du Grand Toulouse Grand Toulouse.

A travers une méthode de conception participative, nous comptons permettre aux déficients visuel de se déplacer vers une destination voulue de façon fiable et plus sûre, sans interférer avec leur comportement de déplacement habituel. Le dispositif permettra en plus de localiser et saisir des objets sans nécessité de les pré-équiper avec un composant électronique (balise RFID). L'objectif de l'équipe AA sur le projet NAVIG est de mettre au point un moteur de synthèse binaurale augmentant la réalité avec des informations auditives permettant de localiser des cibles visuelles et d'atteindre une destination en évitant des obstacles.

navig
Prototype du système NAVIG.

Perception auditive 3D

La restitution auditive des informations est faite en utilisant la technique de spatialisation binaurale. Nous utilisons pour cela un moteur de synthèse binaurale mis au point au LIMSI et fonctionnant sur la convolution en temps réel de HRIR. Afin d'obtenir de meilleures performances de localisation avec des HRTFs non individualisées et de réduire les problèmes de confusions haut/bas et avant/arrière propre à la technique binaurale, nous avons mis au point un jeu, qui, basé sur la plasticité du système auditif, permet à l'utilisateur de s'adapter à des HRTFs qui ne sont pas les siennes.

Guidage audio

L'objectif du guidage audio est de transmettre des informations visuelles sous la forme d'informations sonore. Nous envisageons différents types d'informations sonore en fonction du type de guidage :

  • Guidage en champ proche

    Le guidage en champ proche doit permettre de transmettre la position d'un objet, sa taille et sa forme. Afin de mieux guider le geste de saisie, les sons doivent permettre de transmettre l'information sur l'encombrement du trajet de la main vers l'objet. Nos premiers travaux consistent à évaluer la précision de localisation d'une source proche, situer dans l'espace péri-personnel, pour aller saisir un objet. Nous comptons évaluer les performances de sujets non-voyants pour des sources réelles vs virtuelles, pour différents types de stimuli sonores

  • Guidage en champ lointain

    Le guidage en navigation doit permettre à l'utilisateur de connaître les indications sur la trajectoire à venir, les points de repères à proximité du trajet ainsi que toutes les informations lui permettant de se faire une bonne représentation de l'espace dans lequel il se déplace. Des tests sont en cours sur un guidage utilisant du "text-to-speech" spatialisé et des métaphores de sonifications.

  • Description de l'environnement

    La description de l'environnement consiste à transmettre à l'utilisateur une connaissance de la situation. Utilisable en amont et pendant la navigation, cette description doit contenir différents niveaux de détails afin de ne pas surcharger l'utilisateur pendant la navigation et de tenir compte des limites des capacités de la mémoire de travail pour la description en amont. L'objectif est de permettre à l'utilisateur de construire une représentation cognitive intégrée de l'environnement dans le cadre de référence qui est le sien. Nous travaillons sur l'élaboration de cartes sonores allocentrés et égocentrés. Ces cartes pourront être couplées à des tables tactiles permettant de recevoir des cartes en brailles pour la préparation d'itinéraire.

Design sonore et ergonomie

  • Choix des sons pour la restitution

    Afin de ne pas être considéré comme désagréable, le design sonore devra être basé sur des feuilles de styles permettants à l'utilisateur de choisir les différents types de sons qui permettront le guidage. Nous cherchons à éviter les approches des systèmes existants, basés trop souvent sur du Text-to-speech ou sur des balises sonores entrainant une surcharge cognitive. Les premières réunions avec les utilisateurs montrent que, si certains préfèrent être guider avec des sons électronique (bien différentiable des sons de l'environnement), d'autre préfèrent des sons naturels (jugés moins désagréable). Ceci tend à démontrer l'utilité des feuilles de styles.

  • Choix du type de casque pour la restitution

    Afin d'éviter le masquage de l'environnement sonore réel par les sons du dispositif, nous étudions la qualité de la spatialisation binaurale pour différents types de casques : casques osseaux, air-tubes.

Publications relatives au projet

  • Florian Dramas, Brian FG Katz, Christophe Jouffrais. ''Auditory-guided reaching movements in the peripersonal frontal space''. Acoustics, Paris, Vol. 123, Acoustical Society of America, p. 3723, 2008.
  • Florian Dramas, Bernard Oriola, Brian FG Katz, Simon Thorpe, Christophe Jouffrais. ''Designing an assistive device for the blind based on object localization and augmented auditory reality''. ACM Conference on Computers and Accessibility (ASSETS 2008), Halifax, Canada, 13/10/08-15/10/08.
  • Florian Dramas, Simon Thorpe, Brian FG Katz, Christophe Jouffrais. ''Object recognition and localization for the blinds. From the assistive device towards the neuroprosthesis''. From Neural Code to Brain/Machine Interface, Paris, 27/09/07-29/09/07.
  • Gaëtan Parseihian, Brian FG Katz. ''Conception d'un moteur de rendu audio binaural pour l'aide à la navigation des non-voyants''. Journées des Jeunes Chercheurs en Audition, Acoustique musicale et Signal audio, Marseille, 25/11/09-27/11/09.
  • Brian FG Katz, Philippe Truillet, Simon Thorpe, Christophe Jouffrais. ''NAVIG: Navigation Assisted by Artificial Vision and GNSS''. Workshop Pervasive 2010: Multimodal Location Based Techniques for Extreme Navigation, Helsinki, 17/05/2010.
  • Gaëtan Parseihian, Adrien Brilhaut, Florian Dramas. ''NAVIG: An Object Localization System for the Blind''. Workshop Pervasive 2010: Multimodal Location Based Techniques for Extreme Navigation, Helsinki, 17/05/2010.

Projet SMART-I²

Personnes impliquées: Marc Rébillat, Xavier Boutillon, Brian F.G. Katz et Etienne Corteel (collaborateur)

Présentation du projet

Le projet SMART-I² est un projet impliquant trois entités differentes: Le LIMSI-CNRS, le LMS (Laboratoire de Mécanique des solides) et sonic emotion (société suisse spécialiste du son 3D). L'objectif de ce projet est de concevoir un dispositif capable de proposer simultanément à plusieurs utilisateurs un rendu audio-visuel spatialisé physiquement cohérent, avec lequel et au sein duquel ils puissent interagir.

Le SMART-I² est un dispositif de rendu audio-visuel 3D de haute qualité. Dans ce système, le rendu visuel est réalisé en utilisant la stéréoscopie passive trackée. L'originalité de ce dispositif est que les écrans de projection sont aussi utilisés en tant que bancs de haut-parleurs. Le rendu sonore spatialisé est réalisé en utilisant la ``Wave field Synthesis'', procédé qui réalise une synthèse physique du champ sonore que l'on cherche à obtenir. Ainsi le SMART-I² permet une très bonne intégration audio-visuelle avec quasiment aucun compromis sur les qualités audio ou visuelle.

Rendu sonore spatialisé par ``Wave Field Synthesis''

La ``Wave Field Synthesis'' (WFS) est une technologie qui a été d'abord développée à l'Université de Delft. Il s'agit d'une implémentation audio du principe de Huygens-fresnel, qui spécifie que:``Tout champ sonore émergeant d'une source principale peut être reproduit en sommant les contributions d'une distribution infinie et continue de sources sonores secondaires". D'un point de vue théorique, la WFS permet donc de synthétiser des sources sonores à n'importe quelle position. En pratique, nous sommes limités au plan horizontal.

Illustration du principe de la WFS.
smartii

Cette figure illustre le principe de Huygens-Fresnel. Le violon de la partie gauche est la source primaire produisant le champ sonore que l'on cherche à reproduire. Le banc linéaire de haut-parleurs de la partie droite constitue l'ensemble des sources secondaires. La somme des contributions de chacun de ces haut-parleurs, s'ils sont correctement alimentés, est alors équivalente au champ sonore original. Le champ sonore créé par le violon est donc ainsi synthétisé et perçu par les utilisateurs présents dans la zone de restitution comme provenant de la position précise ou se situait le violon. Plusieurs sources peuvent être synthétisées simultanément en sommant les signaux d'alimentation.

Rendu visuel 3D par ``Passive Tracked Stereoscopy''

Pour produire un rendu visuel 3D convaincant, les deux yeux de l'utilisateur du système doivent voir la même scène mais d'un point de légèrement différent. Un moyen de réaliser ceci est d'utiliser les propriétés de polarisation de la lumière pour envoyer des images indépendantes sur chacun des yeux de l'utilisateur. Il faut aussi que la position de l'utilisateur soit connue pour pouvoir lui restituer à tout moment le rendu visuel correspondant à la position ou il se trouve. Avec cette approche, le rendu visuel 3D est physiquement cohérent, quelquesoit la position de l'utilisateur dans la zone d'immersion.

Illustration de la stéréoscopie passive.
smartii

Intégration des différentes technologies en utilisant les ``Multi-Actuator Panels''

L'originalité du SMART-I² est qu'il intègre les deux technologies présentées précédement en utilisant d'une façon nouvelle les ``Multi-Actuator Panels'' (MAPs). Les MAPs sont des panneaux légers et rigides aux dos desquels sont fixés des excitateurs électro-dynamiques. Les haut-parleurs multi-canaux de ce type ne dépassent habituellement pas 1 m². Pour ce projet, des nouveaux MAPs de grandes dimension (5 m² avec un ratio de 4/3) ont été conçus pour pouvoir être utilisés aussi en tant qu'écrans. Pour ne pas dépolariser la lumière une peinture spéciale a été appliquée sur leur face avant. Etant donné la grande taille des panneaux en jeu, les vibrations sont de très faible amplitude et le rendu visuel 3D n'est pas perturbé.

Face avant
smartii
Faca arrière
mapback

Architecture globale du système

L'organisation générale du SMART-I² est représentée de façon schématique sur la figure de gauche. Deux grands MAPs de 2.6 m par 2 m forment un coin d'écrans stéréoscopiques et un banc de 24 haut-parleurs. Dans cette configuration, les utilisateurs peuvent évoluer dans une zone d'immersion d'environ 2.5m par 2.5m.

Organization globale du SMART-I².
smartii

Perspectives et applications

Les perspectives de recherches pour ce projet sont nombreuses. En effet, étant donné que c'est la première fois que des panneaux vibrant d'une telle dimension sont utilisés dans ce contexte, il est très important de bien comprendre leur fonctionnement physique pour pouvoir envisager des améliorations. Ces améliorations peuvent avoir un impact sur la perception sonore des utilisateurs du système et peuvent à terme améliorer la qualité du rendu sonore spatialisé.

Les applications d'un tel système sont elles aussi nombreuses. L'application la plus évidente est commerciale. Etant donné que ce système ont un cout relativement modéré par rapport aux systèmes audio visuels classiques, le SMART-I² peut avoir des applications visant le grand public: téléconférence, jeux vidéo, etc... D'autre part, ce dispositif constitue aussi un bon dispositif de rendu audio-visuel pour la réalité virtuelle et peut donc être aussi utilisé dans ce contexte: soins en environnement virtuel, expérience psychophysiques, etc…

Publications relatives

  • M. Rébillat, E. Corteel, B.F.G. Katz, "The SMART-I²: A new approach for the design of immersive audio-visual environments.", Euro-VR Eve 2010, Orsay, France, May 2010. [Preprint-pdf]
  • M. Rébillat, E. Corteel, B.F.G. Katz, X. Boutillon, "Identification, modélisation et contrôle de Large Multi-Actuator Panels pour la création d'un rendu audio-visuel spatialisé.", Journées des Jeunes Chercheurs en Audition, Acoustique musicale et Signal audio, Marseille, November 2009. [Poster-pdf]
  • M. Rébillat, E. Corteel, B.F.G. Katz, "SMART-I²: Spatial Multi-users Audio-visual Real Time Interactive Interface, a broadcast application context", 3DTV Conference, Potsdam, Germany, May 2009. [Preprint-pdf]
  • M. Rébillat, E. Corteel, B.F.G. Katz, "SMART-I²: A Spatial Multi-users Audio-visual Real Time Interactive Interface", 125th Convention of the Audio engineering Society, San Francisco, October 2008. [Preprint-pdf]

Personnes participant au projet: Tifanie Bouchara, Christian Jacquemin , Brian F.G. Katz , et Catherine Guastavino (collaborator).

Présentation du projet

Il s'agit d'une étude sur différentes combinaisons possibles entre les modalités audio et visuelles pour améliorer les interfaces d'exploration de données multimédia. Nous nous proposons de reprendre les méthodes graphiques utilisées dans le domaine de la visualisation et de les étendre au domaine sonore. En d'autres termes il s'agit de créer des interfaces audio zoomables. En particulier, nous avons développé une lentille grossissante qui agit sur les deux modalités auditive et visuelle de façon simultanée et cohérente. Pour la modalité visuelle, la distorsion s'apparente aux distorsions de type vues en oeil-de-poisson; pour l'aspect audio, il s'agit de spatialiser les sons puis de déformer ce rendu sonore, 2D ou 3D, en fonction du rendu graphique en modifiant la position spatiale (distance, azimuth, élévation) des sources. Dans les travaux futurs nous chercherons à  mettre en place des interfaces zoomables basées sur le contenu et non plus sur la représentation spatiale des données.

Cette recherche sur les interfaces audio et multimodale (voir le site Web de Tifanie bouchara) fait intervenir plusieurs disciplines : interaction homme-machines, interfaces zoomables, rendu sonore spatialisé, perception et cognition sonore, crossmodalité audiovisuelle.

Rendu graphique des interfaces d'exploration développées pour l'exploration de bases de données de documents vidéos: en haut) méthode dite Pan&Zoom, en bas) méthode dite en oeil-de-poisson.
smartii

Publications relatives au projet

  • T. Bouchara, C. Guastavino, B.F.G. Katz, C. Jacquemin, "Audiovisual Rendering for Multimedia Navigation.", submitted, 2010.
  • T. Bouchara, C. Guastavino, B.F.G. Katz, C. Jacquemin, "Conception d'une Lentille Grossissante Audiovisuelle pour l'Exploration de Base de Données Multimédias", Journées des Jeunes Chercheurs en Audition, Acoustique musicale et Signal audio, Marseille, November 2009.

[ Dérouler vers : Contenu, Menus, Bannière, Aide à la navigation. ]

[ Dérouler vers : Contenu, Menus, Bannière, Aide à la navigation. ]