Automatické hodnocení kvality paralelních dvojjazyčných dat
Automatic Evaluation of Parallel Bilingual Data Quality
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/9910Identifikátory
SIS: 44254
Kolekce
- Kvalifikační práce [11244]
Autor
Vedoucí práce
Oponent práce
Pecina, Pavel
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Počítačová a formální lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
31. 5. 2007
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Dobře
Statistický strojový překlad je metoda závislá zejména na velkém množství paralelních dvojjazyčných dat. Ty se používa jí pro trénování překladového modelu. Ten pak zastupuje úlohu pravidlového transferu, v některých systémech lexikálního. Věří se, že kvalitu překladu lze zlepšovat přidáváním trénovacích dat. Zkusil jsem naopak trénovací data zmenčovat a sledovat, jak se bude vyvíjet hodnocení překladu. Větné páry, které zůstanou ve zmeněném korpusu jsem vybíral postupně podle těch růných klíčů jednou náhodně, jednou podle poměru délek vět a nakonec podle počtu párů slov, které zná slovník jako překladové ekvivalenty. Ukázal jsem, že nejenže vhodný výběr větných párů do menšího korpusu zpomalí pokles NIST a BLEU ho dno cení se zmenšujícím se korpusem, ale dokonce může vést k lepšímu hodnocení. Zmenšení trénovacích dat vedlo také ke zrychlení vyhodnocení a nižším nárokům na prostor. To může být užitečné při implementaci strojového překladu v malých zařízeních s omezenými systémovými prostředky.
Statistical machine translation is an approach dependent particularly on huge amount of parallel bilingual data. It is used to train a translation model. The translation model works instead of a rule-based transfer; in some systems even lexical. It is believed that quality of the translation may be improved with more data for training. I have tried contrary to give less data and watch how the score of the translation changes. I selected sentence pairs to stay a part of the corpus with some key fi rst randomly, then according to sentence length ratio and finaly according to the number of word couples that a dictionary knows as translation pairs. I show that selection according to an advisable criteria slows down falling of NIST and BLEU score with decreasing size of the corpus and in some cases may tend even to better score. Decreasing the corpus size also lead to faster evaluation and less need of space. It may be useful in an implementation of the machine translation system in small devices with limited system resources.