CORAL Corpus

View resource name in all available languages

Corpus CORAL

ID:

ELRA-S0367

The CORAL corpus was collected in the framework of a national project sponsored by the PRAXIS XXI program, by a consortium formed by INESC, CLUL, FLUL (Faculdade de Letras da Universidade de Lisboa), and FCSH-UNL (Faculdade de Ciências Sociais e Humanas da Universidade Nova de Lisboa). The purpose of this project is the collection of a spoken dialogue corpus in European Portuguese, with several levels of labelling: orthographic, phonetic, phonological, syntactic and semantic.

- Linguistic Contents:
56 dialogues about a predetermined subject: maps. One of the participants (giver) has a map with some landmarks and a route drawn between them; the other (follower) has also landmarks, but no route and consequently must reconstruct it. In order to elicit conversation, there are small differences between the two maps: one of the landmarks is duplicated in one map and single in the other; some landmarks are only present in one of the maps; and some have slightly different names in the two maps (e.g. curvas perigosas vs. troço sinuoso). In the 16 different maps, the names of the landmarks were chosen to allow the study of some connected speech phenomena:
o Sequences with /l/ favouring or not its velarization (e.g. sala malva, sal amargo)
o Sequences with /s/ in word final position followed by another coronal fricative (e.g. barcos salva-vidas)
o Sequences of plosives formed across word boundaries (e.g. clube de tiro)
o Sequences of obstruents formed within and across word boundaries (e.g. bairros degradados)

The last three items were designed to allow a more comprehensive study of consonant clusters formed within and across word boundaries and should, therefore, be jointly investigated.

- Number and Type of Speakers:
The original 32 speakers were divided into 8 quartets and, in each quartet, organized to take part in 8 dialogues. The available database contains 7 quartets, corresponding to 28 speakers. Given the reduced number of speakers, they were chosen to achieve an adequate balance of sexes, but were restricted in terms of age (under-graduate or graduate students) and accent (Lisbon area). Speakers were chosen in pairs who know each other, so that half of the conversations take place between "friends" and half between people who do not knew each other.

- Data Collection:
The recordings take place in a sound proof room, with no visual contact between the speakers. They wear close-talking microphones and the recordings are made in stereo directly to DAT and later down-sampled to 16 kHz per channel. No monitoring is done once the dialogues start, after adjusting recording levels.

- Annotation:
Only orthographic transcription was done for the whole corpus. A pilot recording was annotated in several levels.
Four files per dialogue are provided:
a) two RAW files: audio file
b) two TRS files: containing the manual transcriptions. The TRS format is a kind of XML format that a standard transcription software such as Transcriber can open. Annotations in the TRS files are at word-level. They are fine-grained transcriptions that include disfluencies. The characters in the text files are encoded in ISO-8859-1 (Latin1).
The corpus consists of 112 TRS and corresponding WAV files, and contains about 57K word tokens. The disk size is about 1.5 MB for the TRS files and 1.2 GB for the WAV files.

View resource description in all available languages

Le corpus CORAL a été collecté dans le cadre d’un projet national sponsorisé par le programme PRAXIS XXI, par un consortium formé par INESC, CLUL, FLUL (Faculdade de Letras da Universidade de Lisboa), et FCSH-UNL (Faculdade de Ciências Sociais e Humanas da Universidade Nova de Lisboa). L’objectif du projet est la collection d’un corpus de dialogue parlé en portugais européen, avec plusieurs niveaux d’étiquetages: orthographique, phonétique, phonologique, syntaxique et sémantique.

- Contenu linguistique:
56 dialogues sur un sujet prédéterminé: des cartes. L’un des participants (“giver”) a une carte avec des points de repères et un chemin tracé entre les points de repère; l’autre participant (“follower”) a également un carte avec des points de repères mais pas de chemin et doit donc le reconstruire. Afin de susciter la conversation, il y a quelques différentes entres les deux cartes: l’un des points de repère est dupliqué dans l’une des deux cartes et est unique dans l’autre; certains points de repères sont présents uniquement dans l’une des cartes; et d’autres ont de légères différences de nom dans les deux cartes (e.g. curvas perigosas vs. troço sinuoso). Dans les 16 cartes différentes, les noms des points de repère ont été choisis afin de permettre l’étude de quelques phénomènes de parole connectée:
o Séquences avec /l/ favorisant ou non sa vélarisation (e.g. sala malva, sal amargo)
o Séquences avec /s/ en position finale de mot suivies par une autre fricative coronale (e.g. barcos salva-vidas)
o Séquences de plosives formées en travers des limites de mots (e.g. clube de tiro)
o Séquences d’obstruantes formées au milieu et en travers des limites de mots (e.g. bairros degradados)

Les trois derniers items ont été conçus pour permettre une étude plus compléte des clusters de consonnes formés au milieu et en travers des limites de mots et doivent donc être étudiés de façon conjointe.

- Nombre et types de locuteurs:
Les 32 locuteurs d’origine ont été répartis en 8 quartets et, dans chaque quartet, organisés pour prendre part à 8 dialogues. La base de données distribuée ici comprend 7 quartets, correspondant à 28 locuteurs. Etant donné le nombre réduit de locuteurs, ils ont été choisis afin d’obtenir un nombre équilibré au niveau du sexe, mais sont restreints au niveau de l’âge (étudiants de premier à troisième cycle) et de l’accent (région de Lisbonne). Les locuteurs ont été choisis en moitié par paires qui se connaissent, afin que la moitié de la conversation soit réalisée entre “amis”, et l’autre moitié par paires de personnes ne se connaissant pas.

- Collecte des données:
Les enregistrements ont été réalisés dans une salle insonorisée, sans contact visual entre les locuteurs. Ils portent des microphones à courte portée et les enregistrements ont été réalisés en stéréo directement vers des données DAT, puis plus tard échantillonnés en 16 kHz par canal. Aucun contrôle n’est fait une fois que le dialogue a commencé, après avoir ajusté les niveaux d’enregistrements.

- Annotation:
Seule une transcription orthographique a été faite sur la totalité du corpus. Un enregistrement pilote a été annoté à différents niveaux.
Quatre fichiers par dialogue sont fournis:
a) deux fichiers RAW: fichier audio
b) deux fichiers TRS contenant les transcriptions manuelles. Le format TRS est une sorte de format XML qu’un logiciel de transcription standard tel que Transcriber peut ouvrir. Les annotations dans les fichiers TRS sont réalisées au niveau du mot. Ce sont des transcriptions de granularité fine qui comprennent les disfluences. Les caractères dans les fichiers texte sont codés en ISO-8859-1 (Latin1).
Le corpus consiste en 112 TRS et fichiers WAV correspondants, et contient environ 57K mots tokens. La taille du disque est d’environ 1,5 Mo pour les fichiers TRS et 1,2 Go pour les fichiers WAV.

You don’t have the permission to edit this resource.