Audio-visual speech research at IBM.

Le traitement audio-visuel de la parole chez IBM



Andrew Senior



Séminaire CHM du LIMSI
27-3-2000



Rothenburg
This talk will describe some of the research currently under
way at IBM's T.J. Watson Research center into the use
of vision to enhance speech recognition.

There are three main areas where we are applying vision in speech: in speech recognition enhancement (lip-reading) speaker ID (face recognition) and usability (determining intent-to-speak). In this work we combine face detection, tracking and recognition with speech techniques, using a probabilistic framework. The talk will show how vision can enhance speech recognition and human-computer interaction, and describe the vision algorithms used and how they combine with the speech systems.

    

L'exposé présentera une recherche effectuée au centre T. J. Watson d'IBM, et concernant l'usage de la vision pour améliorer la reconnaissance de parole.


La vision peut avoir trois usages dans ce contexte : lire sur les lèvres, voir qui parle, et détecter une intention de prise de parole. Ici la perception des visages est combinée avec des techniques de traitement du langage parlé, dans un cadre probabiliste. On exposera les améliorations obtenues, ainsi que les algorithmes de vision, et la façon dont ils interagissent avec ceux qui traitent la parole.





This work is a collaboration between the Human Language Technologies and Exploratory Computer Vision groups
at IBM Research in Yorktown Heights, NY, with involvement
from the IBM India Research Lab. (Andrew Senior, Chalapathy Neti, Gerasimos Potamianos, Giri Iyengar, Sankar Basu, Ashish Vermar, Philippe de Cuetos and others.)

    

Ce travail résulte d'une collaboration entre les groupes "Technologies des langues" et "Vision artificielle" de Yorktown Heights, avec une participation du laboratoire indien d'IBM (Andrew Senior, Chalapathy Neti, Gerasimos Potamianos, Giri Iyengar, Sankar Basu, Ashish Vermar, Philippe de Cuetos et d'autres personnes.)