Pashto phonetic lexicon 
Lexique phonétique en pachto
This is a phonetic lexicon of 21,560 tokens in Pashto with their phonetic transcription in IPA. It covers the major dialect of the TRAD Pashto Broadcast News Speech Corpus (ELRA-S0381) from which the most frequent words were extracted. The pronunciation dictionary of these words was manually prepared by a native Pashto speaker (Yusufzai dialect) using the IPA Pashto phoneme set.
Pashto is an indo-iranian language spoken by the Pashtun people mainly in Pakistan and Afghanistan.
A pronunciation dictionary plays a pivotal role both in ASR and TTS systems. The more accurate it is, the more the performance will be good.
This pronunciation dictionary has been produced by ELDA as an additional dataset to several corpora produced within the PEA TRAD project supported by the French Ministry of Defence (DGA).
Il s’agit d’un lexique phonétique couvrant 21 560 mots en pachto et contenant leur transcription phonétique en IPA. Il couvre une grande partie du Corpus TRAD d’actualités radio et télédiffusées en pachto (ELRA-S0381). Les mots les plus fréquents de ce corpus ont été extraits et transcrits manuellement sous forme de dictionnaire de prononciation par un locuteur natif du pachto (dialecte yusufzai) à l’aide de la table de phonèmes IPA du pachto.
Le pachto (ou pachtou) appartient à la famille des langues indo-iraniennes. Il est parlé par les Pachtounes, principalement au Pakistan et en Afghanistan.
Les dictionnaires de prononciation jouent un rôle essentiel pour les systèmes de reconnaissance automatique de la parole et de synthèse vocale.
Ce dictionnaire de prononciation a été produit par ELDA en complément des nombreux corpus produits dans le cadre du projet PEA TRAD, projet réalisé avec le soutien de la Direction Générale de l'Armement (DGA).
