IWSLT 2017 Data Sets

282 Last view: 2026-07-07

IWSLT 2017 Data Sets

https://wit3.fbk.eu/

These are the data sets for the MT tasks of the evaluation campaigns of IWSLT. They are parallel data sets used for building and testing MT systems. They are publicly available through the WIT3 website wit3.fbk.eu, see release: 2017-01

IWSLT 2017:
• multilingual: German, English, Italian, Dutch, Romanian
• bilingual: from/to English to/from Arabic, German, French, Japanese, Korean, Chinese

Data are crawled from the TED website and carry the respective licensing conditions.
Approximately, for each language pair, training sets include 2,000 talks, 200K sentences and 4M tokens per side, while each dev and test sets 10-15 talks, 1.0K-1.5K sentences and 20K-30K tokens per side. In each edition, the training sets of previous editions are re-used and updated with new talks added to the TED repository in the meanwhile.

You don’t have the permission to edit this resource.

DistributionAvailability

Available - Restricted Use

Licence

Other

Distribution Access/Medium: Downloadable

Contact Person

Mauro Cettolo

text

Bilingual text corpusLanguages

Italian English

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

English Italian

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

Romanian Dutch; Flemish

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

Dutch; Flemish Romanian

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

Italian German

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

German Italian

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

Romanian Italian

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

English German

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

Romanian German

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

German Romanian

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

Dutch; Flemish German

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

German Dutch; Flemish

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

English Dutch; Flemish

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

Dutch; Flemish Italian

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

Dutch; Flemish English

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

Italian Romanian

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

Romanian English

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

Italian Dutch; Flemish

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Bilingual text corpusLanguages

English Romanian

Linguality

Linguality type: Bilingual

Multi-linguality type: Other

Size

608 (all data) Mb

Bilingual text corpusLanguages

German English

Linguality

Linguality type: Bilingual

Multi-linguality type: Parallel

Size

608 (all data) Mb

Metadata

Created: 12/13/2017

Last Updated: 03/16/2018

Metadata Creator

Kanella Pouli

Usage

Foreseen UseNlp Applications

Use NLP Specific: Machine Translation

Actual Use - Nlp Applications

Use NLP Specific: Machine Translation

People who looked at this resource also viewed the following: