Ema-lon Manipuri Corpus (including word embedding and language model)

View resource name in all available languages

Corpus Ema-lon Manipuri (inclus word embedding et modèle de langage)

ID:

ELRA-W0316

The Ema-lon Manipuri Corpus consists of a set of resources for Manipuri language (locally known as Meiteilon) for the purpose of machine translation. The main source for these resources is the Sangai Express news website. The resources that constitute the present corpus are listed below:
1. EM Corpus, abbreviation of Ema-lon Manipuri Corpus, which translates to ‘our mother tongue Manipuri corpus’. This is the first comparable corpus built for the Manipuri (mni)-English (eng) language pair from sentences crawled and collected from The Sangai Express (https://www.thesangaiexpress.com) from August 2020 to March 2021. It contains :
- Monolingual data: 1,034,715 Manipuri sentences and 846,796 English sentences in version 1 and 1,880,035 Manipuri sentences and 1,450,053 English sentences in version 2. This makes a comparable corpus in the two languages.
- Parallel data: 124,975 Manipuri-English aligned sentences extracted from the comparable data version 2.
2. EM-FT is also the first FastText word embedding available for Manipuri language trained on 1,880,035 Manipuri sentences.
3. EM-ALBERT is the first ALBERT model available for Manipuri language which is trained on 1,034,715 Manipuri sentences (from the first version of the EM Corpus).

View resource description in all available languages

Le corpus Ema-lon Manipuri consiste en un ensemble de ressources produites pour la langue Manipuri (connue localement sous le terme Meiteilon) pour des objectifs de traduction automatique. La source principale de ces ressources est le site web d’actualités Sangai Express. Les ressources qui forment ce corpus sont listées ci-dessous:
1. Le corpus EM, abréviation de Ema-lon Manipuri, qui se traduit littéralement par ‘corpus dans notre langue maternelle Manipuri’. Ce corpus est le premier corpus comparable construit pour la paire de langue manipuri (mni)-anglais (eng) à partir de phrases crawlées et collectées depuis le site The Sangai Express (https://www.thesangaiexpress.com) entre août 2020 et mars 2021. Il contient :
- des données monolingues: 1,034,715 phrases en manipuri et 846,796 phrases en anglais dans sa version 1 et 1,880,035 phrases en manipuri et 1,450,053 English dans sa version 2. Cela permet d’obtenir un corpus comparable dans ces deux langues.
- des données parallèles: 124,975 phrases alignées manipuri-anglais extraites de la version 2 des données comparables.
2. EM-FT est le premier plongement de mots (word embedding) FastText disponible pour la langue manipuri qui a été entraîné sur 1,880,035 phrases en manipuri.
3. EM-ALBERT est le premier modèle ALBERT disponible pour la langue Manipuri qui a été entraînté sur 1,034,715 phrases en manipuri (à partir de la première version du corpus EM).

You don’t have the permission to edit this resource.