ESTER 2 Corpus

View resource name in all available languages

Corpus ESTER 2

ID:

ELRA-S0338

ESTER 2 evaluation campaign (Evaluation of Broadcast News enriched transcription systems) is based, one the one hand, on the full corpus from the first ESTER campaign (see ELRA-E0021 and ELRA-S0241), and which was, on the other hand, completed with a training corpus of about hundred hours, specific to ESTER 2, as well as quick transcriptions of African radios. A subset of the corpus consisting of 6 hours is identified as the development corpus. This new data constitute the ESTER 2 Corpus.

ESTER 2 Corpus consists of:
- a manually transcribed radio broadcast news corpus amounting about 100 hours,
- quick transcriptions of African radios amounting about 6 hours.

An annotation of named entities is provided within the development data (about 6 hours).

The recorded radios contain news broadcast, files linked to current news and more conversational-oriented broadcast.

View resource description in all available languages

La campagne d’évaluation ESTER 2 (Evaluation des Systèmes de Transcription enrichie d’Emissions Radiophoniques) s'appuie d'une part sur l'ensemble du corpus de la première campagne ESTER (cf. ELRA-E0021 et ELRA-S0241), complété d’autre part par un corpus d'apprentissage d'une centaine d'heures, spécifique à ESTER 2, ainsi que des transcriptions rapides de radios africaines. Un sous-ensemble du corpus composé de 6 heures est identifié comme corpus de développement. Ces nouvelles données constituent le corpus ESTER 2.

Le corpus ESTER 2 est constitué de :
- un corpus d'émissions radiophoniques manuellement transcrites d’environ 100 heures,
- de transcriptions rapides de radios africaines d’environ 6 heures.

Une annotation des entités nommées est présente dans les données de développement (environ 6 heures).

Les émissions enregistrées contiennent des émissions d'information, des dossiers liés à l'actualité du moment et des émissions plus conversationnelles.

You don’t have the permission to edit this resource.