This talk will describe some of the research currently under way
at IBM's T.J. Watson Research center into the use of vision to enhance
speech recognition.
There are three main areas where we are applying
vision in speech: in speech recognition enhancement (lip-reading)
speaker ID (face recognition) and usability (determining
intent-to-speak). In this work we combine face detection, tracking and
recognition with speech techniques, using a probabilistic
framework. The talk will show how vision can enhance speech
recognition and human-computer interaction, and describe the vision
algorithms used and how they combine with the speech systems.
|
|
L'exposé présentera une recherche effectuée au
centre T. J. Watson d'IBM, et concernant l'usage de la vision pour améliorer la
reconnaissance de parole.
La vision peut avoir trois usages dans ce contexte : lire sur les lèvres,
voir qui parle, et détecter une intention de prise de parole. Ici la perception
des visages est combinée avec des techniques de traitement du langage
parlé, dans un cadre probabiliste. On exposera les améliorations
obtenues, ainsi que les algorithmes de vision, et la façon dont ils
interagissent avec ceux qui traitent la parole.
|
This work is a collaboration between the Human Language Technologies
and Exploratory Computer Vision groups at
IBM Research in Yorktown
Heights, NY, with involvement from the
IBM India Research Lab.
(Andrew Senior, Chalapathy Neti, Gerasimos Potamianos, Giri Iyengar,
Sankar Basu, Ashish Vermar, Philippe de Cuetos and others.)
|
|
Ce travail résulte d'une collaboration entre les groupes "Technologies des
langues" et "Vision artificielle" de
Yorktown Heights, avec une participation du
laboratoire indien d'IBM (Andrew Senior, Chalapathy Neti, Gerasimos Potamianos, Giri Iyengar,
Sankar Basu, Ashish Vermar, Philippe de Cuetos et d'autres personnes.)
|