Zobrazit minimální záznam

Automatic Evaluation of Parallel Bilingual Data Quality
dc.contributor.advisorKuboň, Vladislav
dc.creatorKolovratník, David
dc.date.accessioned2017-04-03T11:57:29Z
dc.date.available2017-04-03T11:57:29Z
dc.date.issued2007
dc.identifier.urihttp://hdl.handle.net/20.500.11956/9910
dc.description.abstractStatistický strojový překlad je metoda závislá zejména na velkém množství paralelních dvojjazyčných dat. Ty se používa jí pro trénování překladového modelu. Ten pak zastupuje úlohu pravidlového transferu, v některých systémech lexikálního. Věří se, že kvalitu překladu lze zlepšovat přidáváním trénovacích dat. Zkusil jsem naopak trénovací data zmenčovat a sledovat, jak se bude vyvíjet hodnocení překladu. Větné páry, které zůstanou ve zmeněném korpusu jsem vybíral postupně podle těch růných klíčů jednou náhodně, jednou podle poměru délek vět a nakonec podle počtu párů slov, které zná slovník jako překladové ekvivalenty. Ukázal jsem, že nejenže vhodný výběr větných párů do menšího korpusu zpomalí pokles NIST a BLEU ho dno cení se zmenšujícím se korpusem, ale dokonce může vést k lepšímu hodnocení. Zmenšení trénovacích dat vedlo také ke zrychlení vyhodnocení a nižším nárokům na prostor. To může být užitečné při implementaci strojového překladu v malých zařízeních s omezenými systémovými prostředky.cs_CZ
dc.description.abstractStatistical machine translation is an approach dependent particularly on huge amount of parallel bilingual data. It is used to train a translation model. The translation model works instead of a rule-based transfer; in some systems even lexical. It is believed that quality of the translation may be improved with more data for training. I have tried contrary to give less data and watch how the score of the translation changes. I selected sentence pairs to stay a part of the corpus with some key fi rst randomly, then according to sentence length ratio and finaly according to the number of word couples that a dictionary knows as translation pairs. I show that selection according to an advisable criteria slows down falling of NIST and BLEU score with decreasing size of the corpus and in some cases may tend even to better score. Decreasing the corpus size also lead to faster evaluation and less need of space. It may be useful in an implementation of the machine translation system in small devices with limited system resources.en_US
dc.languageČeštinacs_CZ
dc.language.isocs_CZ
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.titleAutomatické hodnocení kvality paralelních dvojjazyčných datcs_CZ
dc.typediplomová prácecs_CZ
dcterms.created2007
dcterms.dateAccepted2007-05-31
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId44254
dc.title.translatedAutomatic Evaluation of Parallel Bilingual Data Qualityen_US
dc.contributor.refereePecina, Pavel
dc.identifier.aleph000831342
thesis.degree.nameMgr.
thesis.degree.levelmagisterskécs_CZ
thesis.degree.disciplinePočítačová a formální lingvistikacs_CZ
thesis.degree.disciplineComputational and Formal Linguisticsen_US
thesis.degree.programInformaticsen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csPočítačová a formální lingvistikacs_CZ
uk.degree-discipline.enComputational and Formal Linguisticsen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enInformaticsen_US
thesis.grade.csDobřecs_CZ
thesis.grade.enGooden_US
uk.abstract.csStatistický strojový překlad je metoda závislá zejména na velkém množství paralelních dvojjazyčných dat. Ty se používa jí pro trénování překladového modelu. Ten pak zastupuje úlohu pravidlového transferu, v některých systémech lexikálního. Věří se, že kvalitu překladu lze zlepšovat přidáváním trénovacích dat. Zkusil jsem naopak trénovací data zmenčovat a sledovat, jak se bude vyvíjet hodnocení překladu. Větné páry, které zůstanou ve zmeněném korpusu jsem vybíral postupně podle těch růných klíčů jednou náhodně, jednou podle poměru délek vět a nakonec podle počtu párů slov, které zná slovník jako překladové ekvivalenty. Ukázal jsem, že nejenže vhodný výběr větných párů do menšího korpusu zpomalí pokles NIST a BLEU ho dno cení se zmenšujícím se korpusem, ale dokonce může vést k lepšímu hodnocení. Zmenšení trénovacích dat vedlo také ke zrychlení vyhodnocení a nižším nárokům na prostor. To může být užitečné při implementaci strojového překladu v malých zařízeních s omezenými systémovými prostředky.cs_CZ
uk.abstract.enStatistical machine translation is an approach dependent particularly on huge amount of parallel bilingual data. It is used to train a translation model. The translation model works instead of a rule-based transfer; in some systems even lexical. It is believed that quality of the translation may be improved with more data for training. I have tried contrary to give less data and watch how the score of the translation changes. I selected sentence pairs to stay a part of the corpus with some key fi rst randomly, then according to sentence length ratio and finaly according to the number of word couples that a dictionary knows as translation pairs. I show that selection according to an advisable criteria slows down falling of NIST and BLEU score with decreasing size of the corpus and in some cases may tend even to better score. Decreasing the corpus size also lead to faster evaluation and less need of space. It may be useful in an implementation of the machine translation system in small devices with limited system resources.en_US
uk.file-availabilityV
uk.publication.placePrahacs_CZ
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
dc.identifier.lisID990008313420106986


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV