Quaero Broadcast News Extended Named Entity corpus

View resource name in all available languages

Corpus Quaero d’actualités télé-radio-diffusées annoté en entités nommées

ID:

ELRA-S0349

The Quaero Broadcast News Extended Named Entity corpus consists of the manual annotation of (i) the ESTER 2 corpus (see ELRA-S0338) and (ii) the Quaero Speech Recognition Evaluation corpus (manual and automatic transcriptions coming from 3 different ASR systems). The first part is the training corpus and the second one is the test corpus.

The corpus is fully manually annotated according to the Quaero extended and structured named entity definition, which differentiates entity "types" and "components". The training part of the corpus is only composed of broadcast news data and contains 188 shows, 1,291,225 words, 113,885 types and 146,405 components. The test corpus is composed of both broadcast news and broadcast conversations data and contains 18 shows, 108,010 words, 5,523 types and 8,902 components.

The Quaero Broadcast News Extended Named Entity Corpus consists of:
- a manually transcribed and fully annotated radio broadcast news and broadcast conversation corpus amounting to about 1.5 million words,
- a sub-corpus serving as a mini-reference corpus for quality evaluation purposes,
- tools developed for annotation and evaluation,
- guidelines.

View resource description in all available languages

Le corpus Quaero d’émissions télé-radio-diffusées annoté en entités nommées consiste en l’annotation manuelle (i) du corpus ESTER 2 (voir ELRA-S0338) et (ii) du corpus d’évaluation de systèmes de reconnaissance de la parole Quaero (les transcriptions manuelles et automatiques provenant de 3 systèmes de reconnaissance automatique de la parole différents). La première partie comprend le corpus d’apprentissage et la deuxième le corpus de test.

Le corpus est entièrement annoté manuellement selon la définition étendue et structurée d’entités nommées Quaero, qui distingue les “types” et les “composants” d’entités. La partie apprentissage du corpus est constituée uniquement de données d’actualités télé-radio-diffusées et contient 188 émissions pour 1 291 225 mots, 113 885 types et 146 405 composants. Le corpus de test est constitué à la fois d’actualités et de données de conversations télé-radio-diffusées et contient 18 émissions pour 108 010 mots, 5 523 types et 8 902 composants.

Le corpus Quaero d’émissions télé-radio-diffusées annoté en entités nommées consiste en:
- un corpus d’émissions et de conversations télé-radio-diffusées transcrit manuellement et entièrement annoté pour environ 1,5 million de mots,
- un sous-corpus servant de corpus de référence minimal dans un but d’évaluation de la qualité,
- des outils développés pour l’annotation et l’évaluation,
- un manuel de recommandations.

You don’t have the permission to edit this resource.