dc.contributor.advisor | Bojar, Ondřej | |
dc.creator | Macháček, Matouš | |
dc.date.accessioned | 2017-05-06T18:08:30Z | |
dc.date.available | 2017-05-06T18:08:30Z | |
dc.date.issued | 2012 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/40015 | |
dc.description.abstract | Moderní automatické překladové systémy používají takzvaný loglineární model, který skládá dohromady více dílčích modelů a pomocí nich predikuje pravděpodobnost překladu dané věty. Každý dílčí model má v loglineárním modelu svojí váhu. Tyto váhy jsou dnes obecně optimalizovány na skóre automatické metriky BLEU, přestože jsou k dispozici i jiné metriky, z nichž některé korelují lépe s lidskými anotátory než metrika BLEU. V této práci zkoumáme ruzné metriky (PER, WER, CDER, TER, BLEU a SemPOS) z hlediska korelace s lidskými anotátory. Hloubeji se věnujeme metrice SemPOS a navrhujeme některé její aproximace a varianty. Uvedené metriky jsme použili v metodě MERT při optimalizaci překladového systému z angličtiny do češtiny a zkoumali jsme, jak optimalizování na ruzné automatické metriky ovlivní výslednou kvalitu systému. V rámci této práce jsme také některé metriky implementovali pro použití v metodě MERT. | cs_CZ |
dc.description.abstract | State-of-the-art MT systems use so called log-linear model, which combines several components to predict the probability of the translation of a given sentence. Each component has its weight in the log-linear model. These weights are generally trained to optimize BLEU, but there are many alternative automatic metrics and some of them correlate better with human judgments than BLEU. We explore various metrics (PER, WER, CDER, TER, BLEU and SemPOS) in terms of correlation with human judgments. Metric SemPOS is examined in more detail and we propose some approximations and variants. We use the examined metrics to train Czech to English MT system using MERT method and explore how optimizing toward various automatic evaluation metrics affects the resulting model. | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | strojový překlad | cs_CZ |
dc.subject | automatická metrika | cs_CZ |
dc.subject | optimalizace modelů | cs_CZ |
dc.subject | zpracování přirozeného jazyka | cs_CZ |
dc.subject | machine translation | en_US |
dc.subject | automatic metric | en_US |
dc.subject | optimization | en_US |
dc.subject | natural language processing | en_US |
dc.title | Metriky pro optimalizaci modelů strojového překladu | cs_CZ |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2012 | |
dcterms.dateAccepted | 2012-06-18 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 89328 | |
dc.title.translated | Metrics for Optimizing Statistical Machine Translation | en_US |
dc.contributor.referee | Popel, Martin | |
dc.identifier.aleph | 001479837 | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | General Computer Science | en_US |
thesis.degree.discipline | Obecná informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Obecná informatika | cs_CZ |
uk.degree-discipline.en | General Computer Science | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Moderní automatické překladové systémy používají takzvaný loglineární model, který skládá dohromady více dílčích modelů a pomocí nich predikuje pravděpodobnost překladu dané věty. Každý dílčí model má v loglineárním modelu svojí váhu. Tyto váhy jsou dnes obecně optimalizovány na skóre automatické metriky BLEU, přestože jsou k dispozici i jiné metriky, z nichž některé korelují lépe s lidskými anotátory než metrika BLEU. V této práci zkoumáme ruzné metriky (PER, WER, CDER, TER, BLEU a SemPOS) z hlediska korelace s lidskými anotátory. Hloubeji se věnujeme metrice SemPOS a navrhujeme některé její aproximace a varianty. Uvedené metriky jsme použili v metodě MERT při optimalizaci překladového systému z angličtiny do češtiny a zkoumali jsme, jak optimalizování na ruzné automatické metriky ovlivní výslednou kvalitu systému. V rámci této práce jsme také některé metriky implementovali pro použití v metodě MERT. | cs_CZ |
uk.abstract.en | State-of-the-art MT systems use so called log-linear model, which combines several components to predict the probability of the translation of a given sentence. Each component has its weight in the log-linear model. These weights are generally trained to optimize BLEU, but there are many alternative automatic metrics and some of them correlate better with human judgments than BLEU. We explore various metrics (PER, WER, CDER, TER, BLEU and SemPOS) in terms of correlation with human judgments. Metric SemPOS is examined in more detail and we propose some approximations and variants. We use the examined metrics to train Czech to English MT system using MERT method and explore how optimizing toward various automatic evaluation metrics affects the resulting model. | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
dc.identifier.lisID | 990014798370106986 | |