Analýza chyb a možností zlepšení frázového strojového překladu z angličtiny do urdštiny
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/33687Identifikátory
SIS: 76231
Kolekce
- Kvalifikační práce [11264]
Autor
Vedoucí práce
Oponent práce
Zeman, Daniel
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
4. 2. 2011
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Dobře
Klíčová slova (česky)
frázový překlad, jazyky svolným slovosledem, typy chyb v překladuKlíčová slova (anglicky)
Phrase-based translation, Free-word order languages, error schemeDiplomová práce vyhodnocuje kvalitu frázového strojového překladu pro překlad z angličtiny do urdštiny. Popisujeme anotační schéma pro chyby v překladu a aplikujeme jej na výstupy systému. Hlavním cílem diplomové práce je experimentovat s rozličnými heuristickými postupy pro zlepšení kvality překladu na základě podrobné ruční analýzy chyb v 200 ukázkových větách. Naše postupy zahrnují 1) předzpracování zdrojové angličtiny, např. změna pořádku slov, 2) předzpracování trénovacích dat pro snížení nadměrné lexikální víceznačnosti, při slovním zarovnávání 3) použití dodatečné anotace v podobě tzv. faktorů pro lepší modelování tvaroslovné ko- herence na cílové straně. Účinek studovaných technik je vyhodnocen pomocí automatické metriky kvality strojového překladu. 1
This thesis evaluates the translation quality of phrase-based machine translation system. It explains the translation error annotation scheme to manually annotate errors related to English to Urdu translation system. The primary goal of the thesis is to experiment with different heuristic in order to improve the translation quality based on through manual analysis of 200 test sentences. Different hueristics such as (1) pre-processing of input English, such as word reordering, (2) preprocessing the training corpus in order to improve word alignment, (3) using additional factors (in Moses factored translation) to better model target-side morphological coherence are applied and their impact on the translation quality is evaluated.