Improved Sentence Alignment for Building a Parallel Subtitle Corpus : Building a Multilingual Parallel Subtitle Corpus

Tiedemann, Jörg

Improved Sentence Alignment for Building a Parallel Subtitle Corpus : Building a Multilingual Parallel Subtitle Corpus

DSpace/Manakin Repository

Improved Sentence Alignment for Building a Parallel Subtitle Corpus : Building a Multilingual Parallel Subtitle Corpus

Tiedemann, Jörg

(2007) LOT Occasional Series, volume 7, pp. 147 - 162

(Part of book or chapter of book)

Abstract

In this paper on-going work of creating an extensive multilingual parallel corpus of movie subtitles is presented. The corpus currently contains roughly 23,000 pairs of aligned subtitles covering about 2,700 movies in 29 languages. Subtitles mainly consist of transcribed speech, sometimes in a very condensed way. Insertions, deletions and paraphrases are very frequent which ... read more

Download/Full Text

Open Access version via Utrecht University Repository

ISSN: 1572-199X

Publisher: LOT, Netherlands Graduate School of Linguistics

See more statistics about this item