Dutch PAROLE Distributable Corpus

View resource name in all available languages

Corpus hollandais PAROLE

ID:

ELRA-W0019

The Dutch PAROLE Distributable Corpus is a 3 million words selection from the 20 million words Dutch PAROLE Reference corpus.

The Dutch corpus annotation and checking was made accordingly to the common core PAROLE tagset. The Dutch data were also checked for type.

The Dutch PAROLE Distributable Corpus contains the following texts:

BOOKS:
Van Sterkenburg:
Wdlijst tot wdboek, 1984, 65,344 words
Taal vt Journaal, 1989, 56,215 words
WNT-portret, 1992, 60,133 words

NEWSPAPERS
Short Newspaper texts:
MN_Collection, 1986-1988, 19,537 words
CVNP(S)-Collection, 1983-1990, 179,220 words

PERIODICAL:
Short texts from
- Local Papers, 1985-1988, 47,019 words
- Magazines, 1985-1989, 164,589 words

MISCELLANEOUS:
Texts to be read out in TV-news broadcasts for:
- General audience, 1992-1995, 1,285,824 words
- Youth, 1991-1995, 1,008,658 words
Short texts from Ephemera, 1985-1986, 131,692 words

TOTAL: 3,018,231 words

Over 250,000 words of corpus texts have been PoS-tagged automatically. A total of 59,798 running words has been manually corrected and checked at least two times with respect to maximal granularity, according to a lexicographer's manual. The extra 9,000 words over the required 50,000 words compensate for the occurrence of ca. 5,300 "keywords" in the original texts. The fully corrected material has been subjected to an automated post-control operation, checking the pertinence relations between the various feature values, and instantiating default values in case a mismatch (indicating a correction error) was found. Ca. 200,000 words have been checked once for PoS and type. In addition to the required PoS, type was checked for reasons of quality. This material has been subjected to an automated correction procedure addressing the feature slots (positions) beyond the first two for PoS and type so as to solve discrepancies between the manually corrected PoS and type, and the possibly erroneous, automatically assigned values of the remaining slots.

More info on the Parole project: http://www.elda.org/catalogue/fr/text/doc/parole.html

View resource description in all available languages

Le corpus hollandais PAROLE est une sélection de 3 millions de mots provenant du corpus de référence hollandais PAROLE, qui lui comporte 20 millions de mots.

L'annotation et la vérification du corpus ont été réalisées d'après l'ensemble d'étiquettes commun à PAROLE. Les données du hollandais ont été également vérifiées par type.

Le corpus hollandais PAROLE contient les textes suivants :

LIVRES:
Van Sterkenburg:
Wdlijst tot wdboek, 1984, 65 344 mots
Taal vt Journaal, 1989, 56 215 mots
WNT-portret, 1992, 60 133 mots

JOURNAUX:
Textes courts de journaux :
MN_Collection, 1986-1988, 19 537 mots
CVNP(S)-Collection, 1983-1990, 179 220 mots

PERIODIQUES:
Textes courts de :
- Journaux locaux, 1985-1988, 47 019 mots
- Magazines, 1985-1989, 164 589 mots

DIVERS:
Textes lus dans des actualités télévisées pour :
- une audience générale, 1992-1995, 1 285 824 mots
- la jeunesse, 1991-1995, 1 008 658 mots
Textes courts d'"Ephemera", 1985-1986, 131 692 mots

TOTAL: 3 018 231 mots

Plus de 250 000 mots des textes du corpus ont été balisées automatiquement sur une partie du discours. Un total de 59 798 mots ont été corrigés manuellement et vérifiés au moins deux fois au niveau de la granularité maximale, en suivant le manuel d'un lexicographe. Les 9 000 mots supplémentaires aux 50 000 mots requis compensent l'occurrence d'environ 5 300 "mots clés" des textes originaux. Le matériel entièrement corrigé a fait l'objet d'une opération de post-contrôle automatique, en vérifiant les relations de pertinence entre les différentes valeurs d'attributs, et en instaurant des valeurs par défaut en cas de non concordance (en indiquant une erreur de correction). Environ 200 000 mots ont été vérifiés une fois pour la " partie du discours " et pour le type. Le type a été vérifié pour des raisons de qualité.

Ce matériel a fait l'objet d'une procédure de correction automatique en ajoutant des champs à ceux déjà existants (partie du discours et type), et ce afin de résoudre les différences entre les champs corrigés automatiquement (partie du discours et type), et les champs restants dont les valeurs ont été assignées automatiquement et pouvant contenir des erreurs.

Plus d'informations sur le projet Parole: http://www.elda.org/catalogue/fr/text/doc/parole.html

You don’t have the permission to edit this resource.