TAXI - Multilingual telephone dialog database

TAXI - Base de données orales multilingue



TAXI was produced by BAS, in collaboration with the German research centre for artificial intelligence, DFKI. This speech database contains recordings which consist of dialogues, 94 on the whole (spontaneous speech), between a German speaking cab dispatcher and his clients, who always answered in English. To prevent overlap and to allow automatic segmentation by the recording server, each party pressed a button on his phone to signal the other one that his turn was over. They were recorded over the telephone network. Each dialogue part is translated into the other language. Noise markers are included in the transcripts (not in the translations).The database was annotated following the SpeechDat specifications, and validated to assess its compliance with the SpeechDat format. The files are stored as BAS Partitur Format files.

La base de données TAXI, produite par BAS en collaboration avec le centre de recherche allemand sur l’intelligence artificielle (DFKI), contient 94 dialogues entre un chauffeur de taxi parlant allemand et ses clients parlant anglais, enregistrés sur le réseau téléphonique public. Pour empêcher toute interruption brutale dans le discours, et pour permettre la segmentation automatique des énoncés, chacun disposait d’une touche sur son téléphone pour signaler à l’autre locuteur que c’était son tour de parler. Chaque partie du dialogue est disponible dans les deux langues, et les marqueurs de bruit sont signalés dans les transcriptions (pas dans les traductions).

Les données sont annotées suivant les spécifications SpeechDat, et la base de données a été validée pour contrôler son adéquation avec le format SpeechDat. Les fichiers sont au format BAS Partitur.

