|
|
|
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur
|
Au cours de la dernière décénnie, la réalité virtuelle et la réalité augmentée ont pris une place de plus en plus importante dans notre vie courante. En effet, au travers des médias, des outils de simulation et des outils d'aide à la personne, les dispositifs de rendus audio-visuels ont évolué de façon de façon significative pour répondre à des besoins divers.
Cependant, la dimension spatiale de la modalité audio est encore relativement peu employée et peut s'avérer bénéfique pour de nombreuse applications audio-visuelles. Premièrement il a été montré que la qualité perçue d'un rendu audio-visuel est dépendante de la qualité de rendu des deux modalités. Ainsi l'ajout de son 3D à des applications existantes peut permettre une amélioration sensible de la qualité perçue du rendu proposé par ces dispositifs. D'autre part, l'ajout de son spatialisé à une scène complexe nous en permet une interprétation plus facile.
L'objet du sous-thème Réalité virtuelle et augmentée et interfaces audio est donc d'étudier quel peut être l'impact du son 3D pour ces différents types applications.
Le sous-thème est structuré autour de trois projets:
Le projet ANR-NAVIG a pour objectif d'augmenter l'autonomie des déficients visuels dans une action primordiale et particulièrement problématique : la navigation.
Le consortium est composé de :
A travers une méthode de conception participative, nous comptons permettre aux déficients visuel de se déplacer vers une destination voulue de façon fiable et plus sûre, sans interférer avec leur comportement de déplacement habituel. Le dispositif permettra en plus de localiser et saisir des objets sans nécessité de les pré-équiper avec un composant électronique (balise RFID). L'objectif de l'équipe AA sur le projet NAVIG est de mettre au point un moteur de synthèse binaurale augmentant la réalité avec des informations auditives permettant de localiser des cibles visuelles et d'atteindre une destination en évitant des obstacles.
La restitution auditive des informations est faite en utilisant la technique de spatialisation binaurale. Nous utilisons pour cela un moteur de synthèse binaurale mis au point au LIMSI et fonctionnant sur la convolution en temps réel de HRIR. Afin d'obtenir de meilleures performances de localisation avec des HRTFs non individualisées et de réduire les problèmes de confusions haut/bas et avant/arrière propre à la technique binaurale, nous avons mis au point un jeu, qui, basé sur la plasticité du système auditif, permet à l'utilisateur de s'adapter à des HRTFs qui ne sont pas les siennes.
L'objectif du guidage audio est de transmettre des informations visuelles sous la forme d'informations sonore. Nous envisageons différents types d'informations sonore en fonction du type de guidage :
Le guidage en champ proche doit permettre de transmettre la position d'un objet, sa taille et sa forme. Afin de mieux guider le geste de saisie, les sons doivent permettre de transmettre l'information sur l'encombrement du trajet de la main vers l'objet. Nos premiers travaux consistent à évaluer la précision de localisation d'une source proche, situer dans l'espace péri-personnel, pour aller saisir un objet. Nous comptons évaluer les performances de sujets non-voyants pour des sources réelles vs virtuelles, pour différents types de stimuli sonores
Le guidage en navigation doit permettre à l'utilisateur de connaître les indications sur la trajectoire à venir, les points de repères à proximité du trajet ainsi que toutes les informations lui permettant de se faire une bonne représentation de l'espace dans lequel il se déplace. Des tests sont en cours sur un guidage utilisant du "text-to-speech" spatialisé et des métaphores de sonifications.
La description de l'environnement consiste à transmettre à l'utilisateur une connaissance de la situation. Utilisable en amont et pendant la navigation, cette description doit contenir différents niveaux de détails afin de ne pas surcharger l'utilisateur pendant la navigation et de tenir compte des limites des capacités de la mémoire de travail pour la description en amont. L'objectif est de permettre à l'utilisateur de construire une représentation cognitive intégrée de l'environnement dans le cadre de référence qui est le sien. Nous travaillons sur l'élaboration de cartes sonores allocentrés et égocentrés. Ces cartes pourront être couplées à des tables tactiles permettant de recevoir des cartes en brailles pour la préparation d'itinéraire.
Afin de ne pas être considéré comme désagréable, le design sonore devra être basé sur des feuilles de styles permettants à l'utilisateur de choisir les différents types de sons qui permettront le guidage. Nous cherchons à éviter les approches des systèmes existants, basés trop souvent sur du Text-to-speech ou sur des balises sonores entrainant une surcharge cognitive. Les premières réunions avec les utilisateurs montrent que, si certains préfèrent être guider avec des sons électronique (bien différentiable des sons de l'environnement), d'autre préfèrent des sons naturels (jugés moins désagréable). Ceci tend à démontrer l'utilité des feuilles de styles.
Afin d'éviter le masquage de l'environnement sonore réel par les sons du dispositif, nous étudions la qualité de la spatialisation binaurale pour différents types de casques : casques osseaux, air-tubes.
Personnes impliquées: Marc Rébillat, Xavier Boutillon, Brian F.G. Katz et Etienne Corteel (collaborateur)
Le projet SMART-I² est un projet impliquant trois entités differentes: Le LIMSI-CNRS, le LMS (Laboratoire de Mécanique des solides) et sonic emotion (société suisse spécialiste du son 3D). L'objectif de ce projet est de concevoir un dispositif capable de proposer simultanément à plusieurs utilisateurs un rendu audio-visuel spatialisé physiquement cohérent, avec lequel et au sein duquel ils puissent interagir.
Le SMART-I² est un dispositif de rendu audio-visuel 3D de haute qualité. Dans ce système, le rendu visuel est réalisé en utilisant la stéréoscopie passive trackée. L'originalité de ce dispositif est que les écrans de projection sont aussi utilisés en tant que bancs de haut-parleurs. Le rendu sonore spatialisé est réalisé en utilisant la ``Wave field Synthesis'', procédé qui réalise une synthèse physique du champ sonore que l'on cherche à obtenir. Ainsi le SMART-I² permet une très bonne intégration audio-visuelle avec quasiment aucun compromis sur les qualités audio ou visuelle.
La ``Wave Field Synthesis'' (WFS) est une technologie qui a été d'abord développée à l'Université de Delft. Il s'agit d'une implémentation audio du principe de Huygens-fresnel, qui spécifie que:``Tout champ sonore émergeant d'une source principale peut être reproduit en sommant les contributions d'une distribution infinie et continue de sources sonores secondaires". D'un point de vue théorique, la WFS permet donc de synthétiser des sources sonores à n'importe quelle position. En pratique, nous sommes limités au plan horizontal.
![]() |
Cette figure illustre le principe de Huygens-Fresnel. Le violon de la partie gauche est la source primaire produisant le champ sonore que l'on cherche à reproduire. Le banc linéaire de haut-parleurs de la partie droite constitue l'ensemble des sources secondaires. La somme des contributions de chacun de ces haut-parleurs, s'ils sont correctement alimentés, est alors équivalente au champ sonore original. Le champ sonore créé par le violon est donc ainsi synthétisé et perçu par les utilisateurs présents dans la zone de restitution comme provenant de la position précise ou se situait le violon. Plusieurs sources peuvent être synthétisées simultanément en sommant les signaux d'alimentation.
Pour produire un rendu visuel 3D convaincant, les deux yeux de l'utilisateur du système doivent voir la même scène mais d'un point de légèrement différent. Un moyen de réaliser ceci est d'utiliser les propriétés de polarisation de la lumière pour envoyer des images indépendantes sur chacun des yeux de l'utilisateur. Il faut aussi que la position de l'utilisateur soit connue pour pouvoir lui restituer à tout moment le rendu visuel correspondant à la position ou il se trouve. Avec cette approche, le rendu visuel 3D est physiquement cohérent, quelquesoit la position de l'utilisateur dans la zone d'immersion.
![]() |
L'originalité du SMART-I² est qu'il intègre les deux technologies présentées précédement en utilisant d'une façon nouvelle les ``Multi-Actuator Panels'' (MAPs). Les MAPs sont des panneaux légers et rigides aux dos desquels sont fixés des excitateurs électro-dynamiques. Les haut-parleurs multi-canaux de ce type ne dépassent habituellement pas 1 m². Pour ce projet, des nouveaux MAPs de grandes dimension (5 m² avec un ratio de 4/3) ont été conçus pour pouvoir être utilisés aussi en tant qu'écrans. Pour ne pas dépolariser la lumière une peinture spéciale a été appliquée sur leur face avant. Etant donné la grande taille des panneaux en jeu, les vibrations sont de très faible amplitude et le rendu visuel 3D n'est pas perturbé.
|
|
|---|
L'organisation générale du SMART-I² est représentée de façon schématique sur la figure de gauche. Deux grands MAPs de 2.6 m par 2 m forment un coin d'écrans stéréoscopiques et un banc de 24 haut-parleurs. Dans cette configuration, les utilisateurs peuvent évoluer dans une zone d'immersion d'environ 2.5m par 2.5m.
![]() |
Les perspectives de recherches pour ce projet sont nombreuses. En effet, étant donné que c'est la première fois que des panneaux vibrant d'une telle dimension sont utilisés dans ce contexte, il est très important de bien comprendre leur fonctionnement physique pour pouvoir envisager des améliorations. Ces améliorations peuvent avoir un impact sur la perception sonore des utilisateurs du système et peuvent à terme améliorer la qualité du rendu sonore spatialisé.
Les applications d'un tel système sont elles aussi nombreuses. L'application la plus évidente est commerciale. Etant donné que ce système ont un cout relativement modéré par rapport aux systèmes audio visuels classiques, le SMART-I² peut avoir des applications visant le grand public: téléconférence, jeux vidéo, etc... D'autre part, ce dispositif constitue aussi un bon dispositif de rendu audio-visuel pour la réalité virtuelle et peut donc être aussi utilisé dans ce contexte: soins en environnement virtuel, expérience psychophysiques, etc…
Personnes participant au projet: Tifanie Bouchara, Christian Jacquemin , Brian F.G. Katz , et Catherine Guastavino (collaborator).
Il s'agit d'une étude sur différentes combinaisons possibles entre les modalités audio et visuelles pour améliorer les interfaces d'exploration de données multimédia. Nous nous proposons de reprendre les méthodes graphiques utilisées dans le domaine de la visualisation et de les étendre au domaine sonore. En d'autres termes il s'agit de créer des interfaces audio zoomables. En particulier, nous avons développé une lentille grossissante qui agit sur les deux modalités auditive et visuelle de façon simultanée et cohérente. Pour la modalité visuelle, la distorsion s'apparente aux distorsions de type vues en oeil-de-poisson; pour l'aspect audio, il s'agit de spatialiser les sons puis de déformer ce rendu sonore, 2D ou 3D, en fonction du rendu graphique en modifiant la position spatiale (distance, azimuth, élévation) des sources. Dans les travaux futurs nous chercherons à mettre en place des interfaces zoomables basées sur le contenu et non plus sur la représentation spatiale des données.
Cette recherche sur les interfaces audio et multimodale (voir le site Web de Tifanie bouchara) fait intervenir plusieurs disciplines : interaction homme-machines, interfaces zoomables, rendu sonore spatialisé, perception et cognition sonore, crossmodalité audiovisuelle.
![]() |