Image et Interaction

E. Frenoux, D. Béroule, F. Bimbard, H. Ding, M. Gouiffès, C. Jacquemin, A. Setkov, PA Bokaris.

Traitement HTRI (High Dynamic Range Image) d’une séquence d’images diurnes et nocturnes
Photo © Bertrand Planes

 

Le thème « Image et Interaction » rassemble plusieurs axes de recherche autour de la réalité augmentée, de la vision par ordinateur et de la thématique art-sciences. Chacun d’entre eux a pour but de développer de nouvelles technologies pour le traitement automatique d’images numériques et pour l’amélioration de l’interaction visuelle humaine. Au sein de ce thème, les problématiques principales sont :

  • Utiliser les lois de la physique en lien avec la vision et les systèmes camera-projecteur : caractérisation géométrique et colorimétrique, invariance de couleur, rutilation des propriétés du système visuel humain.
  • Analyse de scène : 1) détection de saillances, de caractéristiques robustes, de couleur, de texture, de points et de régions 2) Ajustement temporel et tracking (suivi), 3) reconstruction 3D, 4) reconnaissance de scène et de lieux (collaboration initiale avec le groupe CPU – Philippe Tarroux – puis avec TLP– Camille Guinaudeau et Hervé Bredin)
  • Rendu : adaptation géométrique et colorimétrique, shaders (nuanceurs) pour la calibration temps-réel, adaptation et interaction avec des cibles mouvantes ou des caméras mouvantes.
  • Accélération d’algorithmes, programmation GPU.

TRAITEMENT D’IMAGES POUR LA RÉALITÉ AUGMENTÉE ET LA VISION ROBOTIQUE

Traitement d’Images pour la Réalité Augmentée

Pour la Réalité Augmentée basée sur la Projection (i.e. utilisant la vidéoprojection pour masquer l’espace physique avec des données informatiques visuelles);il est nécessaire de calibrer l’image projetée dans le monde physique et de trouver sa position optimale. En plus des problèmes de calibration de base, la Réalité Augmentée basée sur la Projection soulève de nombreux défis en traitement d’images tels que :

  • Le calcul des masques de projection de façon à limiter l’augmentation visuelle à certaines sous-parties de la scène réelle (comme par exemple l’ombre des spectateurs);
  • La transformation en temps réel des données pour les re-projeter sur la scène après modification (par exemple mise en évidence des contours);
  • Gestion de l’interaction Humain-scène.

Tous les algorithmes sont implantés dans le GPU pour optimiser le temps de traitement et les rendre compatibles avec les exigences de l’interaction temps-réel. La calibration permet de reconstruire la géométrie du monde physique et l’utilise pour calculer les corrections à appliquer à l’image sur les parties planes de la scène. En ce qui concerne la calibration et la compensation temps-réel, une collaboration a été mise en place avec l’équipe ACCIS de l’IEF, concrétisée par la thèse d’Alex Setkov, qui a débuté en 2012 et l’intégration de deux membres d’ACCIS au sein de notre laboratoire (Michèle Gouiffès et Franck Bimbard). Deux propositions de projets ont été faites sur le sujet : 1) Un projet "ANR blanc bilatéral" soumis en janvier 2013, en collaboration avec l’Allemagne (universités HU et TUC), 2° un projet "Post-doctorant" Digitéo (en collaboration avec F. Vernier, AMI et C. Clavel, CPU).

Depuis quelques années, les cameras et les projecteurs sont largement utilisés et intégrés à de nombreux instruments électroniques (smartphones, pico-projecteurs). On peut donc utiliser aisément ces technologies pour les applications de Réalité Augmentée basée sur la Projection. Sachant que le modèle pin-hole peut être appliqué aussi bien aux projecteurs qu’aux cameras, on peut utiliser ces deux types de matériels pour la reconstruction 3D et le suivi 3D. Pour ce faire, il est nécessaire de calibrer les instrument, ce qui soulève deux problèmes:

  • La calibration des caméras et projecteurs à partir de grilles de calibration acquises et projetées;
  • L’auto-calibration des caméras et projecteurs seulement à partir de correspondances  entre les images acquises et les images projetées.

Alors que les algorithmes de calibration pour cameras sont largement utilisés et développés depuis de nombreuses années, nous nous intéressons à la calibration des projecteurs, qui nécessite des algorithmes de traitement d’images innovants et fiables malgré les problèmes physiques inhérents à ce type de matériel (luminosité, …). Une fois la calibration effectuée, il est possible d’effectuer une reconstruction 3D à partir d’algorithmes classiques tels que, par exemple, la matrice essentielle. Par ailleurs, nous optimisons et/ou adaptons les algorithmes ci-dessus pour plusieurs types d’architectures tels que CPU/SIMD et GPGPU. Ce dernier point est particulièrement important pour permettre l’utilisation de ces algorithmes lors d’applications temps-réel. Nos recherches concernant la Réalité Augmentée basée sur la Projection sont utilisées dans différents projets : pour l’augmentation de monuments, pour des installations interactives dans l’espace public, et de façon plus générale dans une partie des applications arts-sciences décrites dans le thème transversal VIDA.

Cinq doctorants ont travaillé sur des applications et extensions du traitement d’images pour la réalité augmentée : Hui Ding a étudié le rendu et la description de scènes audio-graphiques au sein du projet ANR Topophonie (soutenance en 2013 puis ATER en 2013-14). Ses résultats peuvent être appliqués à l’augmentation audio et visuelle de scènes physiques. Tifanie Bouchara a développé des méthodes d’analyse comparative pour la perception visuelle et auditive de scènes audio-graphiques (post-doc en 2013-14). La thèse de Sarah Fdili Alaoui a propose de nouvelles perspectives pour l’interaction gestuelle corps entire et pour l’analyse du mouvement, en collaboration avec l’IRCAM (post-doc en 2013-2014). Alexander Setkov a débuté sa thèse en 2012 et travaille actuellement sur la compensation de la distorsion géométrique de l’image en utilisant l’invariance colorimétrique et géométrique pour la correspondance de points dans les systèmes caméra-projecteur. Il a passé six mois au Computer Vision Center in University Autonomia de Barcelone en 2014 et depuis son retour, une collaboration a été établie avec ce laboratoire. Panagiotis-Alexandros Bokaris a débuté sa thèse en 2013, sous la supervision conjointe du LadHyX (Polytechnique), de la compagnie de théatre Laboratoire Victor Vérité, et du LIMSI. Ses recherches portent sur la compensation colorimétrique dans les systèmes caméra-projecteur afin de camoufler la présence humaine sur scène. Ses premiers travaux portent sur la compensation colorimétrique à partie de techniques adaptatives temps-réel et seront étendus aux scènes mobiles. A travers sa collaboration avec le LadHyX, il travaille sur la révélation de présence.

Traitement d’Image et Vision Robotique

Cet axe a été initié lors d’une collaboration avec les membres du groupe CPU (thèses de Mathieu Dubois et Ahmad Hasasneh, co-encadrées avec Philippe Tarroux-CPU). Les recherches effectuées lors de ces travaux concernent le développement de méthodes d’apprentissage pour la reconnaissance de lieux sémantiques et la localisation en robotique. Par ailleurs, au cours de ces recherches, les doctorants ont été amenés à explorer les possibilités de techniques innovantes telles que les réseaux profonds. Plusieurs membres du thème I&I sont impliqués dans le groupe de travail digicosme Deepnets.


DÉTECTION DE SAILLANCES DANS DES SÉQUENCES D’IMAGES

Les techniques HDRI (High Dynamic Range Imaging) sont utilisées pour produire des images de luminance du monde réel dynamiques et bien contrastées en capturant plusieurs images de la même scène sous différentes conditions d’exposition. Dans la même veine, nous avons développé une nouvelle approche de la fusion d’images à partir de séries de photographies d’une même scène prises à différents horodatages. En comparaison des techniques HDRI, les variations d’exposition à un instant donné sont remplacées par les variations aux différents instants indépendamment du temps d’exposition. Du fait des similitudes entre ces deux approches, cette technique est appelée HTRI (High Time Range Imaging). Elle vise à capturer les événements éphémères survenant au cours d’une longue période de temps pendant laquelle est acquise une série d’images est acquise. Pour chaque position de pixel, les couleurs les plus saillantes sont privilégiées dans la série de photographies. Le choix du critère de saillance s’appuie sur une analyse de l’existant selon les définitions classiques de l’attention visuelle. Dans un second temps, une priorité plus importante est attribuée aux pixels ayant des saillances temporelles hautes, i.e. apparaissant brièvement dans la séquence, produisant simultanément des changements de contraste temporels et spatiaux entre deux images successives. L’algorithme proposé capture tous les objets saillants dans l’image finale, sans ajout significatif de bruit malgré les importantes variations d’illuminations pouvant survenir lors des conditions d’acquisition des différentes images. Cette méthode a été publiée dans un article de revue en 2013.

LIMSI
Campus universitaire bât 507
Rue du Belvedère
F - 91405 Orsay cedex
Tél +33 (0) 1 69 15 80 15
Email

RAPPORTS SCIENTIFIQUES

Le LIMSI en chiffres

10 équipes de recherche
100 chercheurs et enseignants-chercheurs
40 ingénieurs et techniciens
60 doctorants
70 stagiaires

 Université Paris-Sud nouvelle fenêtre

 

Paris-Saclay nouvelle fenêtre