Danish Propbank

Propbank danois




The Danish Propbank (DPB) is a multi-layer treebank, annotated not only with morphosyntactic, but also with semantic information, in particular propositions/frames with VerbNet classes and semantic roles for both arguments and satellites. In addition, the corpus has been annotated with 20 Named Entity classes and a 200-category semantic ontology for nouns. The text samples are taken from Korpus 2010, compiled by the Society for Danish Language and Literature (http://korpus.dsl.dk/resources.html), and contain samples of written Danish from a variety of both formal and informal texts, such as newspapers, magazines, blogs, chat fora and parliamentary debates. The treebank consists of about 87,000 tokens. There are over 12,000 frames with 32,000 role instances. It can be regarded as a semantic sister treebank complementing the older Arboretum treebank (see ELRA-W0084). The two data sets also complement each other with regard to time periods and text types, together covering 3 decades of Danish text.

Le Danish Propbank (DPB) est un treebank annoté avec des informations morphosyntaxiques et sémantiques, notamment des propositions/cadres sémantiques annotés avec des classes de VerbNet et des rôles sémantiques pour les arguments et pour les satellites. Le corpus a été annoté avec 20 classes d’entités nommées et avec une ontologie sémantique pour les noms comprenant 200 catégories. Le texte a été extrait du Korpus 2010, compilé par la Société pour la Langue et la Littérature Danoises (http://korpus.dsl.dk/resources.html) et il contient des textes formels et informels en Danois, comme des textes de journaux, magazines, blogs, chats, forums et débats parlementaires. Le treebank comprend environ 87000 tokens, 12000 cadres sémantiques et 32000 instances de rôles. DPB est un treebank avec des annotations sémantiques qui vient en complément du treebank Arboretum (voir ELRA-W0084). Les deux ressources sont complémentaires aussi en ce qui concerne les types de texte et les périodes (ensemble les deux corpus couvrent trois décennies de textes danois).

