MEDIA speech database for French 
Base de données MEDIA pour le français
The MEDIA speech database for French was produced by ELDA within the French national project MEDIA (Automatic evaluation of man-machine dialogue systems), as part of the Technolangue programme funded by the French Ministry of Research and New Technologies (MRNT).
It contains 1,258 transcribed dialogues from 250 adult speakers. The method chosen for the corpus construction process is that of a ‘Wizard of Oz’ (WoZ) system. This consists of simulating a natural language man-machine dialogue. The scenario was built in the domain of tourism and hotel reservation.
The database is formatted following the SpeechDat conventions and it includes the following items:
• 1,258 recorded sessions for a total of 70 hours of speech. The signals are stored in a stereo wave file format. Each of the two speech channels is recorded at 8 kHz with 16 bit quantization with the least significant byte first (“lohi” or Intel format) as signed integers.
• Manual transcription of each session in XML format. Label files were created with the free transcription tool Transcriber (TRS files).
• Phonetic lexicon containing all the words spoken in the database. Column 1 contains the orthography of the French word. Column 2 shows the frequency of the word. Column 3 contains the pronunciation in SAMPA format. Here is a sample entry of the lexicon:
1) agitée 3 A/ Z i t e
• Documentation and statistics are also provided with the database.
The semantic annotation of the corpus is available in this catalogue and referenced ELRA-E0024 (MEDIA Evaluation Package).
La base de données MEDIA pour le français a été produite dans le cadre du projet national français MEDIA (« Méthodologie d'Evaluation automatique de la compréhension hors et en contexte du DIAlogue »), issu du programme Technolangue, financé par le Ministère français délégué à la Recherche et aux Nouvelles Technologies (MRNT).
Elle comprend 1 258 dialogues transcrits pour 250 locuteurs adultes. La méthode choisie pour la construction du corpus est celle d’un système « magicien d’Oz ». Elle consiste à simuler un dialogue homme-machine en langage naturel. Le scénario est construit pour le domaine du tourisme et de la réservation d’hôtel.
La base de données a été formatée d’après les conventions SpeechDat et contient les éléments suivants:
• 1 258 sessions d’enregistrements pour un total de 70 heures de parole. Les signaux sont stockés au format de fichier wave stereo. Les deux canaux de parole sont enregistrés en 8kHz 16 bit, avec l’octet le moins significatif en premier (“lohi” ou format Intel) en entiers (signés).
• La transcription manuelle de chaque session au format XML. Les fichiers d’étiquetage ont été créés à partir de l’outil de transcription Transcriber (fichiers TRS), libre de droit.
• Un lexique phonétique contenant tous les mots prononcés dans la base de données. La 1ère colonne contient l’orthographe du mot français. La 2ème colonne représente la fréquence du mot. La 3ème colonne contient la prononciation au format SAMPA. Voici pour exemple une entrée du lexique:
2) agitée 3 A/ Z i t e
• La documentation et des statistiques sont également fournies avec la base de données.
L’annotation sémantique du corpus est disponible dans le catalogue sous la référence ELRA-E0024 (Package d’évaluation MEDIA).
