ONOMASTICA-COPERNICUS DATABASE

View resource name in all available languages

Base de données ONOMASTICA-COPERNICUS

ID:

ELRA-S0043

The ONOMASTICA project was a European-wide research initiative within the scope of the Linguistic Research and Engineering Programme, the aim of which was the construction of a multi-language pronunciation lexicon of proper names. That project covered eleven European languages: Danish, Dutch, English, French, German, Greek, Italian, Norwegian, Portuguese, Spanish and Swedish.

Although the ONOMASTICA project ended in June 1995, the work continued with the introduction of new partners, addressing names in Eastern and Central European languages: Czech, Estonian, Latvian, Polish, Romanian, Slovakian, Slovenian and Ukrainian, in a new project funded by the European Commission?s Copernicus Programme.

The corpus consists of a collection of 1,783,390 transcriptions of 1,705,653 names, broken down as follows:
· Czech: 257,700 entries consisting of 244,025 names prepared by Dr. Pavel Kolar of the Language Institute, Silesian University, Opava, Czech Republic.
· Estonian: 209,515 entries consisting of 208,380 names prepared by Dr. Peeter Päll of the Institute for the Estonian Language, Estonian Academy of Sciences, Tallinn, Estonia.
· Latvian: 258,214 entries consisting of 245,331 names prepared by Dr. Andrejs Spektors of the Institute of Mathematics and Computer Science, University of Latvia, Riga, Latvia.
· Polish: 285,412 entries consisting of 244,632 names prepared by Prof. Wiktor Jassem of the Institute of Fundamental Technological Research, Polish Academy of Sciences, Posnan, Poland.
· Slovak: 228,257 entries consisting of 228,257 names prepared by Dr. Peter Durco of the Department of Foreign Languages, Police Academy of the Slovak Republic, Bratislava, Slovak Republic.
· Slovenian: 285,862 entries consisting of 283,449 names prepared by Dr. Zdravko Kacic of the Faculty of Technical Sciences, University of Maribor, Maribor, Slovenia.
· Ukrainian: 258,430 entries consisting of 251,579 names prepared by Dr. Yevgeniy Ludovik of the Institute of Cybernetics, Ukraine Academy of Sciences, Kiev, Ukraine.

The databases are presented in Microsoft Access format and in ASCII text format, together with a database browser software prepared by Keith Edwards of the Centre for Communication Interface Research, The University of Edinburgh.

View resource description in all available languages

Le projet ONOMASTICA est une initiative de recherche européenne faisant partie du programme de recherche et d'ingénierie linguistique, le but étant la construction de lexiques multilingues de prononciation de noms propres. Ce projet a couvert les langues européennes suivantes : allemand, anglais, danois, espagnol, français, grec, hollandais, italien, norvégien, portugais, et suédois.

Bien que le projet Onomastica soit terminé depuis juin 1995, le travail a été prolongé avec l'introduction de nouveaux partenaires, pour la prononciation de noms dans des langues d'Europe centrale et orientale : estonien, letton, polonais, roumain, slovaque, slovène, tchèque et ukrainien, dans un nouveau projet financé par le Programme Copernicus de la Commission européenne.

Ce corpus comprend 1 783 390 transcriptions de 1 705 653 noms qui couvrent :
- estonien : 209 515 entrées constituées de 208 380 noms préparés par Dr. Peeter Päll de l'Institut de la langue estonienne, Académie des Sciences d'Estonie, Tallinn, Estonie.
- letton : 258 214 entrées constituées de 245,331 noms préparés par Dr. Andrejs Spektors de l'Institut de mathématique et d'informatique, Université de Lettonie, Riga, Lettonie.
- polonais : 285,412 entrées constituées de 244,632 noms préparés par Prof. Wiktor Jassem de l'Institut de recherche technologique fondamentale, Académie des Sciences de Pologne, Posnan, Pologne.
- slovaque : 228,257 entrées constituées de 228,257 noms préparés par Dr. Peter Durco du Département des langues étrangères, Académie de police de la République Slovaque, Bratislava, République slovaque.
- slovène : 285,862 entrées constituées de 283,449 noms préparés par Dr. Zdravko Kacic de la Faculté des sciences techniques, Université de Maribor, Maribor, Slovénie.
- tchèque : 257 700 entrées constituées de 244 025 noms préparés par Dr. Pavel Kolar de l'Institut des langues, Université de Silésie, Opava, République Tchèque.
- ukrainien : 258,430 entrées constituées de 251,579 noms préparés par Dr. Yevgeniy Ludovik de l'Institut de Cybernétique, Académie des sciences d'Ukraine, Kiev, Ukraine.

Les bases de données sont présentées aussi bien sous le format Microsoft Access qu'en ASCII. Un outil de navigation a également été préparé par Keith Edwards du Centre de recherche d'interface pour la communication, Université d'Edimbourg.

You don’t have the permission to edit this resource.