Données scientifiques et Corpus

Corpus oraux et multimodaux du LIMSI

DEGELS1 : Linguistique des langues des ignes, gestualité : Analyse linguistique, traitement automatique, comparaison gestualité / langues des signes

Dicta-Sign : Linguistique des langues des signes, gestualité : Analyse linguistique, traitement automatique (reconnaissance, génération, traduction)

EvaSy SUS : Évaluation de la qualité de systèmes de synthèse de la parole en français

FCL2 : Étude de la prononciation du français en contact avec des langues régionales (corse et occitan) et en langue seconde (L2)

OTIM : Développement d’une plateforme d’annotation multimodale, élaboration d’un schéma d’encodage pour les données orales et multimodales, développement d’un outil de requêtes

 

Autres corpus:

DEFT (DEfi Fouille de Texte) : campagne d'évaluation annuelle francophone organisée par le LIMSI depuis 2007. Plusieurs corpus annotés disponibles librement, certains après signature d'une licence. Certains en accès payant (DEFT 2008).

Quaero Broadcast News : corpus de retranscription automatique de la parole (divertissement et journaux d'information) annoté en entités nommées étendues

Quaero Old Press : corpus de presse ancienne (1870) numérisée, annoté en entités nommées étendues

Quaero FrenchMed : corpus français d'entités médicales normalisées

WiCoPaCo : corpus de reformulations extraites des révisions de Wikipédia