|
|
||||||||||||||||||||
| Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur | |||||||||||||||||||||
Spoken Language Processing Group (TLP)Groupe TLP - PrésentationLes recherches du Groupe Traitement du Langage Parlé portent sur la modélisation de la parole et son traitement automatique. Ces recherches sont par essence pluridisciplinaires et nécessitent des compétences en traitement du signal, en acoustique, en phonétique, en linguistique, en statistique et en algorithmique. Le besoin de confronter nos modèles aux données nous amène à développer des systèmes de traitement du langage parlé assurant des fonctions variées telles que la reconnaissance de la parole; l'identification de la langue, du locuteur et de son état émotionnel; la structuration de documents audio et audiovisuels; la traduction de la parole, ainsi que le dialogue oral homme-machine. La reconnaissance de la parole consiste à transcrire le signal audio en texte. Suivant l'usage visé, cette transcription peut être plus ou moins complète, avec le marquage des ponctuations, des hésitations et de certains événements paralinguistiques tels qu'une respiration ou un rire. La langue dans laquelle s'exprime le locuteur peut être identifiée en amont du système de reconnaissance, lorsque celle-ci n'est pas connue a priori. La reconnaissance du locuteur consiste à déterminer qui parle et quand, cette identification peut être absolue ou relative au document traité. Pour extraire et structurer l'information présente dans un document audio, nous développons des modèles et des algorithmes fondés sur la prise en compte conjointe des diverses sources d'information visant à un processus global de décodage du signal. Ces recherches sur les modélisations acoustique, lexicale, et linguistique, sont réalisées dans un contexte multilingue et s'appuient sur de grands corpus oraux représentatifs de nombreux domaines applicatifs. Le volume de données à traiter nous a amené à développer de nouvelles solutions pour le décodage qui permettent de réduire significativement les temps de traitement. Dans ce cadre nous travaillons également sur des méthodes d'apprentissage qui nous permettent d'exploiter ces très grandes quantités de données tout en limitant les besoins en annotations manuelles. Ces corpus servent bien sûr au développement de modèles statistiques, mais ils sont aussi exploités pour effectuer des recherches en linguistique de corpus oraux. Ainsi grâce aux outils d'alignement et de transcription, les études acoustico-phonétiques peuvent être effectuées sur des milliers d'heures de parole et permettent de mieux valider les hypothèses et modèles. Le dialogue oral homme-machine est un sujet de recherche à multiples facettes qui nous amène à traiter l'oral spontané, à modéliser les processus de compréhension et de génération du langage, et à développer des stratégies de dialogue. Ces travaux se concrétisent par la réalisation de systèmes de dialogue pour l'interrogation de bases de données dans des domaines spécifiques ou pour la recherche d'informations dans des collections de documents hétérogènes. On notera en particulier le développement de la plate-forme {\sc Ritel} (Recherche d'Information par Téléphone) en collaboration avec le groupe LIR, pour l'expérimentation de systèmes de question-réponse interactifs. Cette plate-forme accepte des questions orales ou écrites et permet la recherche des réponses dans des documents audio et textuels. Deux axes de recherche relativement récents dans le groupe concernent, d'une part la caractérisation, la modélisation, et l'identification des émotions dans la parole, et d'autre part la traduction de la parole par des méthodes statistiques. L'identification des émotions repose principalement sur l'extraction d'indices acoustiques et prosodiques, et sur la détection d'événements para-linguistiques, mais le contenu linguistique dépend aussi de l'état émotionnel du locuteur. Concernant nos recherches sur la traduction automatique de la parole, nous avons développé des systèmes complets fondés sur une approche statistique pour plusieurs paires de langues, en particulier dans le cadre du projet européen TCStar pour la traduction des débats du parlement européen. En complément à ces recherches, trois activités accompagnent et soutiennent nos travaux~: le développement de bases de données et des outils et conventions d'annotation associés; l'évaluation des modèles et systèmes; et la valorisation des résultats dans le cadre de contrats avec l'industrie et dans des projets nationaux et européens. Au premier octobre 2007, le groupe comprenait 30 membres, dont 10 permanents CNRS, 5 enseignants-chercheurs, 6 postdocs, 1 ingénieur de recherche contractuel, et 8 doctorants. A côté de ses activités de recherche, le groupe assure divers cours sur le traitement de la parole, en particulier dans les enseignements de master recherche et master pro de l'université Paris XI, ainsi qu'à l'IFIPS, l'ENSTA et l'ENST. Conjointement avec le LPP de l'Université Paris~3, l'ENST et la DGA, le LIMSI a organisé une école thématique CNRS ``Voix, Parole, Langues'' en juin 2006, à Cargèse. Entre 2005 et 2007, les membres du groupe ont publié 132 articles dont 19 dans des revues internationales et 3 chapitres d'ouvrage. Les contrats de recherche couvrent l'ensemble des activités du groupe, en particulier grâce aux projets européens (CHIL, TC-Star, Vital, et Humaine), aux projets Darpa EARS/GALE, aux programmes nationaux (RNTL Audiosurf, Technolangue Media), aux projets interdisciplinaires STIC-SHS du CNRS (Midl et TCAN), aux projets ANR PFC-Cor et INSTAR, et au projet Infom@gic du pôle de compétitivité Cap Digital. Nous avons une tradition d'évaluation continue de nos travaux avec en particulier la participation depuis 1992 à 20 campagnes d'évaluation organisées par le NIST aux USA pour les technologies du traitement de la parole, ainsi qu'aux principales évaluations organisées en France et en Europe. Dans la période 2005-2007, nous avons pris part à 7 campagnes d'évaluation sur la reconnaissance de la parole (NIST RT06 et RT07, TCStar'05, '06, '07, GALE'06 et '07), 5 campagnes d'évaluation sur la reconnaissance du locuteur (NIST SRE'05, SRE'06, CHIL'05, CLEAR'06 and CLEAR'07), une campagne d'évaluation sur les systèmes de compréhension (Technolangue Media'05), l'évaluation QAst/CLEF'07 sur les système de question-réponse pour des documents audio, ainsi que la campagne NIST LRE'07 sur la reconnaissance de la langue. Le groupe a également co-organisé les campagnes Technolangue Media'05 et QAst/CLEF'07. Nos moyens informatiques sont importants et sont renouvelés régulièrement pour prendre en compte des besoins toujours croissants liés au développement et à l'évaluation des modèles statistiques. Nous disposons d'une grappe de 114 PC bi-processeurs avec plus de 80 tera-octets de disques, ainsi que d'un parc d'environ 80 serveurs Unix et Linux. Les recherches du groupe sont structurées en cinq thèmes interdépendants~: Caractérisation du locuteur et des émotions (thème 1), Caractérisation des langues et linguistique de corpus oraux (thème 2), Interaction conversationnelle (thème 3), Modèles de langage, apprentissage et traduction (thème 4) et Transcription et indexation de documents audio (thème 5).
Last modified: Saturday,18-April-09 04:53:03 CEST |
|||||||||||||||||||||