NEMLAR Written Corpus

View resource name in all available languages

Corpus écrit NEMLAR

ID:

ELRA-W0042

This corpus was produced within the NEMLAR project (http://www.nemlar.org). Two other resources, produced within the same project, are also available: NEMLAR Broadcast News Speech Corpus (ELRA-S0219) and the NEMLAR Speech Synthesis Corpus (ELRA-S0220).

The NEMLAR Written Corpus consists of about 500,000 words of Arabic text from 13 different categories, aiming to achieve a well-balanced corpus that offers a representation of the variety in syntactic, semantic and pragmatic features of modern Arabic language. The different categories are:
• Political news: 48,000 words
• Political debate: 30,000 words
• Islamic text (Preaching and others): 29,000 words
• Phrases of common words: 8,500 words
• Text from broadcast news: 5,500 words
• Business: 20,000 words
• Arabic literature: 30,000 words
• General news: 100,000 words
• Interviews: 56,000 words
• Scientific press: 50,000 words
• Sports press: 50,000 words
• Dictionary entries explanation: 52,000 words
• Legal domain text: 21,000 words

The time span of the data included goes from late 1990’s to 2005.

The corpus is provided in 4 different versions:
• Raw text
• Fully vowelized text
• Text with Arabic lexical analysis
• Text with Arabic POS-tags

Diacritics, lexical analysis and POS-tags were generated by RDI’s tool Fassieh©. The accuracy of the automatic analysis is around 95%. To reach about the 99% accuracy rate as defined for this corpus, the linguists used the visual revision mode of Fassieh© where the linguist has to either approve the 1st most likely analysis (most of the time) or select another one manually (in the 4% minority of the cases).

The database is distributed on 1 ISO 9660 CD-ROM volume. It has been validated by an external partner and a validation report is provided.

View resource description in all available languages

Ce corpus a été produit dans le cadre du projet NEMLAR (http://www.nemlar.org). Deux autres ressources, produites dans le cadre du même projet, sont également disponibles : le corpus oral d’actualités radiophoniques NEMLAR (ELRA-S0219) et le corpus de synthèse de parole NEMLAR (ELRA-S0220).

Le corpus écrit NEMLAR est constitué de 500 000 mots de texte arabe regroupés en 13 catégories différentes, visant à obtenir un corpus bien équilibré qui offre une représentation de la variété de traits syntaxiques, sémantiques et pragmatiques de la langue arabe moderne. Les différentes catégories sont :
• Actualités politiques : 48 000 mots
• Débat politique : 30 000 mots
• Texte Islamique (prières et autres) : 29 000 mots
• Expressions de mots communs : 8 500 mots
• Textes extraits d’émissions radiophoniques : 5 500 mots
• Affaires : 20 000 mots
• Littérature arabe : 30 000 mots
• Actualités générales : 100 000 mots
• Interviews : 56 000 mots
• Presse scientifique : 50 000 mots
• Presse sportive : 50 000 mots
• Explications d’entrées de dictionnaire : 52 000 mots
• Texte du domaine juridique : 21 000 mots

La période de temps des données se situe entre la fin des années 1990 jusqu’à 2005.

Le corpus est fourni sous la forme de 4 versions différentes:
• Texte brut
• Texte entièrement voyellé
• Texte comprenant une analyse lexicale de l’arabe
• Texte comprenant des étiquettes pour la partie du discours

Les diacritiques, l’analyse lexicale et les étiquettes pour la partie du discours ont été générées par l’outil Fassieh© de RDI. La précision de l’analyse automatique est d’environ 95%. Afin d’obtenir près de 99% de taux de précision, les linguistes ont utilisé le mode de révision visuelle de Fassieh© où le linguiste doit soit approuver la première analyse comme la plus probable (la plupart du temps) ou sélectionner une autre manuellement (pour une minorité de 4% des cas).

La base de données est distribuée sur 1 CD-ROM ISO 9660. Elle a été validée par un partenaire externe et un rapport de validation est fourni.

You don’t have the permission to edit this resource.