Automatické hodnocení kvality paralelních dvojjazyčných dat
Automatic Evaluation of Parallel Bilingual Data Quality
diploma thesis (DEFENDED)
![Document thumbnail](/bitstream/handle/20.500.11956/9910/thumbnail.png?sequence=7&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/9910Identifiers
Study Information System: 44254
Collections
- Kvalifikační práce [11264]
Author
Advisor
Referee
Pecina, Pavel
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational and Formal Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
31. 5. 2007
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Good
Statistický strojový překlad je metoda závislá zejména na velkém množství paralelních dvojjazyčných dat. Ty se používa jí pro trénování překladového modelu. Ten pak zastupuje úlohu pravidlového transferu, v některých systémech lexikálního. Věří se, že kvalitu překladu lze zlepšovat přidáváním trénovacích dat. Zkusil jsem naopak trénovací data zmenčovat a sledovat, jak se bude vyvíjet hodnocení překladu. Větné páry, které zůstanou ve zmeněném korpusu jsem vybíral postupně podle těch růných klíčů jednou náhodně, jednou podle poměru délek vět a nakonec podle počtu párů slov, které zná slovník jako překladové ekvivalenty. Ukázal jsem, že nejenže vhodný výběr větných párů do menšího korpusu zpomalí pokles NIST a BLEU ho dno cení se zmenšujícím se korpusem, ale dokonce může vést k lepšímu hodnocení. Zmenšení trénovacích dat vedlo také ke zrychlení vyhodnocení a nižším nárokům na prostor. To může být užitečné při implementaci strojového překladu v malých zařízeních s omezenými systémovými prostředky.
Statistical machine translation is an approach dependent particularly on huge amount of parallel bilingual data. It is used to train a translation model. The translation model works instead of a rule-based transfer; in some systems even lexical. It is believed that quality of the translation may be improved with more data for training. I have tried contrary to give less data and watch how the score of the translation changes. I selected sentence pairs to stay a part of the corpus with some key fi rst randomly, then according to sentence length ratio and finaly according to the number of word couples that a dictionary knows as translation pairs. I show that selection according to an advisable criteria slows down falling of NIST and BLEU score with decreasing size of the corpus and in some cases may tend even to better score. Decreasing the corpus size also lead to faster evaluation and less need of space. It may be useful in an implementation of the machine translation system in small devices with limited system resources.