SPK

ID:

ELRA-S0049

SPK is an Italian speech database of isolated and connected digits. It was designed and collected at the Istituto per la Ricerca Scientifica e Tecnologica (ITC/IRST), Trento, Italy. SPK was conceived for speaker recognition and verification purposes.With this CD-ROM, speech material corresponding to isolated digits acquired from 100 speakers (30 females and 70 males, from 23 to 50 years old) is released. Most of the speakers are from the North-East of Italy.
Speech material was collected from each speaker during five recording sessions scheduled on different days. During a recording session four repetitions of the ten Italian digits were acquired from a speaker. A total of 20,000 speech waveform files form the corpus.
Recordings were performed in a quiet room. Speech was acquired at 48 kHz, with 16 bit accuracy, by means of a Digital Audio Tape-Recorder Sony TCD-D10PRO and a super-cardioid microphone Sennheiser MKH 416-T. Then, digital recordings were downsampled to 16 kHz. Speech waveform files in the corpus were stored in the NIST-SPHERE format by using the SPHERE library, version 2.6a.

View resource description in all available languages

SPK est une base de données de l'italien de chiffres isolés et connectés. Elle a été réalisée par l'Istituto per la Ricerca Scientifica e Tecnologica (ITC/IRST), Trento, Italie. SPK a été spécialement conçue pour des travaux de reconnaissance et de vérification du locuteur.

Le CD-ROM contient le matériel oral correspondant aux chiffres isolés enregistrés par 100 locuteurs (30 femmes et 70 hommes, ayant de 23 à 50 ans). La majorité des locuteurs provient du nord-est de l'Italie. Les données ont été collectées pour chaque locuteur pendant 5 sessions d'enregistrements planifiés sur plusieurs jours différents. Une session d'enregistrement comprend 4 répétitions par chaque locuteur, des dix chiffres italiens. Ce corpus est formé d'un total de 20 000 fichiers.

Les enregistrements ont été réalisés dans une pièce calme. La parole a été enregistrée à 48 kHz et codée avec 16 bits, au moyen d'un enregistreur numérique audio Sony TCD-D10PRO et un microphone super-cardioïde Sennheiser MKH 416-T. Enfin, les enregistrements numériques ont été échantillonnés à 16 kHz. Les fichiers "signal" du corpus ont été stockés sous un format NIST-SPHERE.

You don’t have the permission to edit this resource.