Analýza chyb a možností zlepšení frázového strojového překladu z angličtiny do urdštiny
diploma thesis (DEFENDED)
![Document thumbnail](/bitstream/handle/20.500.11956/33687/thumbnail.png?sequence=7&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/33687Identifiers
Study Information System: 76231
Collections
- Kvalifikační práce [11264]
Author
Advisor
Referee
Zeman, Daniel
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
4. 2. 2011
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Good
Keywords (Czech)
frázový překlad, jazyky svolným slovosledem, typy chyb v překladuKeywords (English)
Phrase-based translation, Free-word order languages, error schemeDiplomová práce vyhodnocuje kvalitu frázového strojového překladu pro překlad z angličtiny do urdštiny. Popisujeme anotační schéma pro chyby v překladu a aplikujeme jej na výstupy systému. Hlavním cílem diplomové práce je experimentovat s rozličnými heuristickými postupy pro zlepšení kvality překladu na základě podrobné ruční analýzy chyb v 200 ukázkových větách. Naše postupy zahrnují 1) předzpracování zdrojové angličtiny, např. změna pořádku slov, 2) předzpracování trénovacích dat pro snížení nadměrné lexikální víceznačnosti, při slovním zarovnávání 3) použití dodatečné anotace v podobě tzv. faktorů pro lepší modelování tvaroslovné ko- herence na cílové straně. Účinek studovaných technik je vyhodnocen pomocí automatické metriky kvality strojového překladu. 1
This thesis evaluates the translation quality of phrase-based machine translation system. It explains the translation error annotation scheme to manually annotate errors related to English to Urdu translation system. The primary goal of the thesis is to experiment with different heuristic in order to improve the translation quality based on through manual analysis of 200 test sentences. Different hueristics such as (1) pre-processing of input English, such as word reordering, (2) preprocessing the training corpus in order to improve word alignment, (3) using additional factors (in Moses factored translation) to better model target-side morphological coherence are applied and their impact on the translation quality is evaluated.