TC-STAR English Training Corpora for ASR: Transcriptions of EPPS Speech
Corpus d’entraînement TC-STAR anglais pour l’ASR: Transcriptions EPPS
TC-STAR is a European integrated project focusing on all core technologies for Speech-to-Speech Translation (SST): Automatic Speech Recognition (ASR), Spoken Language Translation (SLT), and Text to Speech Synthesis (TTS).
This corpus consists of transcriptions from 92 hours of EPPS (European Parliament Plenary Sessions) speeches held or interpreted in European English (a mixture of native and non-native English). The recordings (not included in the present package) were obtained from Europe by Satellite ( from May 2004 until May 2006. The corpus consists of 63 transcriptions files. The transcription files are stored in Transcriber XML file format.
The speech databases made within the TC-STAR project were validated by SPEX, in the Netherlands, to assess their compliance with the TC-STAR format and content specifications.
For corresponding recordings, see ELRA-S0251.
TC-STAR est un projet intégré européen dédié à toutes les technologies de base pour la traduction parole-parole (ou SST pour Speech-to-Speech Translation): reconnaissance automatique de la parole (ou ASR pour « Automatic Speech Recognition »), traduction de la langue parlée (ou SLT pour « Spoken Language Translation ») et technologies texte-parole (ou TTS pour « Text-to-Speech »).
Ce corpus comprend les transcriptions de 92 heures de discours réalisés ou interprétés en anglais européen (un mélange d’anglais natif et non natif) durant les sessions plénières du Parlement européen (EPPS). Les enregistrements (non inclus dans le présent package) ont été obtenus via Europe by Satellite ( de mai 2004 à mai 2006. Le corpus contient 63 fichiers de transcription. Les fichiers de transcription sont stockés au format de fichier XML Transcriber.
Les bases de données orales produites dans le projet TC-STAR ont été validées par SPEX, Pays-Bas, selon le format et les spécifications de contenu TC-STAR.
Pour les enregistrements correspondants, voir ELRA-S0251.
