Quaero Broadcast News Extended Named Entity corpus

134 Last view: 2026-07-27

1 Last update: 2013-06-26

Quaero Broadcast News Extended Named Entity corpus

View resource name in all available languages

Corpus Quaero d’actualités télé-radio-diffusées annoté en entités nommées

http://catalog.elra.info/product_info.php?products_id=1195

ID:

ELRA-S0349

The Quaero Broadcast News Extended Named Entity corpus consists of the manual annotation of (i) the ESTER 2 corpus (see ELRA-S0338) and (ii) the Quaero Speech Recognition Evaluation corpus (manual and automatic transcriptions coming from 3 different ASR systems). The first part is the training corpus and the second one is the test corpus.

The corpus is fully manually annotated according to the Quaero extended and structured named entity definition, which differentiates entity "types" and "components". The training part of the corpus is only composed of broadcast news data and contains 188 shows, 1,291,225 words, 113,885 types and 146,405 components. The test corpus is composed of both broadcast news and broadcast conversations data and contains 18 shows, 108,010 words, 5,523 types and 8,902 components.

The Quaero Broadcast News Extended Named Entity Corpus consists of:
- a manually transcribed and fully annotated radio broadcast news and broadcast conversation corpus amounting to about 1.5 million words,
- a sub-corpus serving as a mini-reference corpus for quality evaluation purposes,
- tools developed for annotation and evaluation,
- guidelines.

View resource description in all available languages

Le corpus Quaero d’émissions télé-radio-diffusées annoté en entités nommées consiste en l’annotation manuelle (i) du corpus ESTER 2 (voir ELRA-S0338) et (ii) du corpus d’évaluation de systèmes de reconnaissance de la parole Quaero (les transcriptions manuelles et automatiques provenant de 3 systèmes de reconnaissance automatique de la parole différents). La première partie comprend le corpus d’apprentissage et la deuxième le corpus de test.

Le corpus est entièrement annoté manuellement selon la définition étendue et structurée d’entités nommées Quaero, qui distingue les “types” et les “composants” d’entités. La partie apprentissage du corpus est constituée uniquement de données d’actualités télé-radio-diffusées et contient 188 émissions pour 1 291 225 mots, 113 885 types et 146 405 composants. Le corpus de test est constitué à la fois d’actualités et de données de conversations télé-radio-diffusées et contient 18 émissions pour 108 010 mots, 5 523 types et 8 902 composants.

Le corpus Quaero d’émissions télé-radio-diffusées annoté en entités nommées consiste en:
- un corpus d’émissions et de conversations télé-radio-diffusées transcrit manuellement et entièrement annoté pour environ 1,5 million de mots,
- un sous-corpus servant de corpus de référence minimal dans un but d’évaluation de la qualité,
- des outils développés pour l’annotation et l’évaluation,
- un manuel de recommandations.

You don’t have the permission to edit this resource.

DistributionAvailability

Available - Restricted Use

Start date: 02/13/2013

Licence

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Academic

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Academic

Contact Person

Mapelli Valérie

audio

Monolingual audio corpusLanguages

French

Linguality

Linguality type: Monolingual

Size

no size available

Resource Creation

Funding Project

Quaero

Funding Type: Other

Metadata

Created: 05/12/2005

Version

Version: 1.0

Last Updated: 02/13/2013

Usage

Actual Use - Nlp Applications

Use NLP Specific: Speech Recognition

People who looked at this resource also viewed the following:

Resources from the same project