Venice Italian Treebank (VIT)

View resource name in all available languages

Treebank italien de Venise

ID:

ELRA-W0040

The VIT, Venice Italian Treebank is the effort of the collaboration of people working at the Laboratory of Computational Linguistics of the University of Venice in the years 1995-2005. It is partly the result of annotation carried out internally with no specific project in mind and no financial support. This work was partly related to the development of a lexicon, a morphological analyzer, a tagger, a deep parser of Italian. All these resources were finally ready at the beginning of the ‘90s when the LCL got involved in the first national projects.

The VIT contains about 272,000 words distributed over six different domains, and this is what makes it so relevant for the study of the structure of Italian language. The following domains were annotated:

Domain Number of words Time span
Bureaucratic 20,000 1986
Politics 40,000 1984
Economic & financial 12,000 1987
Literary 10,000 1984
Scientific 20,000 1985
News 170,000 1994

In addition, some 60,000 tokens of spoken dialogues in different Italian varieties were annotated.
The annotation follows general X-bar criteria with 29 constituency labels and 102 PoS tags. VIT is also made available in a broad annotation version with 10 constituency labels and 22 PoS tags for machine learning purposes.
The format is plain text with square bracketing. However, a UPenn style version which is readable by the open source query language CorpusSearch is also provided.

View resource description in all available languages

Le Treebank italien de Venise (VIT) est le fruit d’un travail de 10 ans (1995-2005) effectué par des chercheurs du Laboratoire de linguistique computationnelle (LCL) de l’université de Venise. Réalisé en interne, en dehors de tout projet spécifique et sans aucun soutien financier, le Treebank est issu à la fois d’un travail d'annotation et du développement d’un lexique, d’un analyseur morphologique, d’un étiqueteur et d’un analyseur syntaxique approfondi de l’italien.

Toutes ces ressources étaient prêtes dès le début des années 90 lorsque le LCL s’est impliqué dans les premiers projets nationaux.

Le VIT comprend environ 272 000 mots répartis sur six domaines différents, ce qui en fait un outil très utile pour l’étude de la structure de la langue italienne. Les domaines suivants ont été annotés :

Domaine Nombre de mots Période
Bureaucratique 20,000 1986
Politique 40,000 1984
Economique & financier 12,000 1987
Littéraire 10,000 1984
Scientifique 20,000 1985
Actualités 170,000 1994

En outre, quelque 60 000 tokens de dialogue oral avec plusieurs variantes de l’italien ont été annotés.
L’annotation est conforme au critère général X-bar avec 29 constituants et 102 étiquettes de partie du discours. Le VIT est également proposé dans une version d’annotation de 10 constituants et de 22 étiquettes de partie du discours pour l’apprentissage automatique.

Les données sont au format texte avec crochets. Cependant, une version de type UPenn visualisable avec CorpusSearch (langage d’interrogation open source) est également fournie.

You don’t have the permission to edit this resource.