Corpus oraux et multimodaux du LIMSI
DEGELS1 : Linguistique des langues des ignes, gestualité : Analyse linguistique, traitement automatique, comparaison gestualité / langues des signes
Dicta-Sign : Linguistique des langues des signes, gestualité : Analyse linguistique, traitement automatique (reconnaissance, génération, traduction)
EvaSy SUS : Évaluation de la qualité de systèmes de synthèse de la parole en français
FCL2 : Étude de la prononciation du français en contact avec des langues régionales (corse et occitan) et en langue seconde (L2)
OTIM : Développement d’une plateforme d’annotation multimodale, élaboration d’un schéma d’encodage pour les données orales et multimodales, développement d’un outil de requêtes
Autres corpus:
DEFT (DEfi Fouille de Texte) : campagne d'évaluation annuelle francophone organisée par le LIMSI depuis 2007. Plusieurs corpus annotés disponibles librement, certains après signature d'une licence. Certains en accès payant (DEFT 2008).
Quaero Broadcast News : corpus de retranscription automatique de la parole (divertissement et journaux d'information) annoté en entités nommées étendues
Quaero Old Press : corpus de presse ancienne (1870) numérisée, annoté en entités nommées étendues
Quaero FrenchMed : corpus français d'entités médicales normalisées
WiCoPaCo : corpus de reformulations extraites des révisions de Wikipédia