dc.contributor.advisor | Popel, Martin | |
dc.creator | Kamran, Amir | |
dc.date.accessioned | 2017-05-08T10:31:51Z | |
dc.date.available | 2017-05-08T10:31:51Z | |
dc.date.issued | 2011 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/48729 | |
dc.description.abstract | V poslední době poskytují systémy automatického překladu založené na korpusových datech dobré výsledky pro celou řadu jazykových párů. Ty jazyky, pro které není k dispozici dostatek dat (jako např. Urdu), však při použití čistě statistických nebo příkladových metod dobré výsledky nemají. Na druhou stranu, metody založené na pravidlech vyžadují obrovské množství času a zdrojů pro vývoj pravidel, což je ve většině případů příliš náročné. Jedním z možných řešení se jeví hybridní systémy automatického překladu, ve kterých je možné kombinovat to nejlepší z různých přístupů za účelem dosažení kvalitního překladu. Tato práce zkoumá různé kombinace přístupů a vyhodnocuje jejich výkon v porovnání se standardně používanými korpusovými metodami. Zahrnuje: 1. Použití syntaktických a závislostních přerovnávacích pravidel v kombinaci se statistickým strojovým překladem. 2. Automatickou extrakci lexikálních a syntaktických pravidel využívající statistické metody pro strojový překlad prostřednictvím transferu. Novým prvkem je v této práci vývoj algoritmu, který se automaticky učí přerovnávací pravidla pro anglicko-urdský statistický automatický překlad. Tento přístup je navíc rozšířen na učení se lexikálních a syntaktických pravidel pro možné vybudování překladového systému založeného na pravidlech. | cs_CZ |
dc.description.abstract | In recent years, corpus based machine translation systems produce significant results for a number of language pairs. However, for low-resource languages like Urdu the purely statistical or purely example based methods are not performing well. On the other hand, the rule-based approaches require a huge amount of time and resources for the development of rules, which makes it difficult in most scenarios. Hybrid machine translation systems might be one of the solutions to overcome these problems, where we can combine the best of different approaches to achieve quality translation. The goal of the thesis is to explore different combinations of approaches and to evaluate their performance over the standard corpus based methods currently in use. This includes: 1. Use of syntax-based and dependency-based reordering rules with Statistical Machine Translation. 2. Automatic extraction of lexical and syntactic rules using statistical methods to facilitate the Transfer-Based Machine Translation. The novel element in the proposed work is to develop an algorithm to learn automatic reordering rules for English-to-Urdu statistical machine translation. Moreover, this approach can be extended to learn lexical and syntactic rules to build a rule-based machine translation system. | en_US |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | Hybrid Machine Translation | cs_CZ |
dc.subject | Low-resource languages | cs_CZ |
dc.subject | English-to-Urdu | cs_CZ |
dc.subject | Hybrid Machine Translation | en_US |
dc.subject | Low-resource languages | en_US |
dc.subject | English-to-Urdu | en_US |
dc.title | Hybrid Machine Translation Approaches for Low-Resource Languages | en_US |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2011 | |
dcterms.dateAccepted | 2011-09-06 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 99731 | |
dc.title.translated | Hybrid Machine Translation Approaches for Low-Resource Languages | cs_CZ |
dc.contributor.referee | Kuboň, Vladislav | |
dc.identifier.aleph | 001384502 | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Computational Linguistics | en_US |
thesis.degree.discipline | Matematická lingvistika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Matematická lingvistika | cs_CZ |
uk.degree-discipline.en | Computational Linguistics | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Velmi dobře | cs_CZ |
thesis.grade.en | Very good | en_US |
uk.abstract.cs | V poslední době poskytují systémy automatického překladu založené na korpusových datech dobré výsledky pro celou řadu jazykových párů. Ty jazyky, pro které není k dispozici dostatek dat (jako např. Urdu), však při použití čistě statistických nebo příkladových metod dobré výsledky nemají. Na druhou stranu, metody založené na pravidlech vyžadují obrovské množství času a zdrojů pro vývoj pravidel, což je ve většině případů příliš náročné. Jedním z možných řešení se jeví hybridní systémy automatického překladu, ve kterých je možné kombinovat to nejlepší z různých přístupů za účelem dosažení kvalitního překladu. Tato práce zkoumá různé kombinace přístupů a vyhodnocuje jejich výkon v porovnání se standardně používanými korpusovými metodami. Zahrnuje: 1. Použití syntaktických a závislostních přerovnávacích pravidel v kombinaci se statistickým strojovým překladem. 2. Automatickou extrakci lexikálních a syntaktických pravidel využívající statistické metody pro strojový překlad prostřednictvím transferu. Novým prvkem je v této práci vývoj algoritmu, který se automaticky učí přerovnávací pravidla pro anglicko-urdský statistický automatický překlad. Tento přístup je navíc rozšířen na učení se lexikálních a syntaktických pravidel pro možné vybudování překladového systému založeného na pravidlech. | cs_CZ |
uk.abstract.en | In recent years, corpus based machine translation systems produce significant results for a number of language pairs. However, for low-resource languages like Urdu the purely statistical or purely example based methods are not performing well. On the other hand, the rule-based approaches require a huge amount of time and resources for the development of rules, which makes it difficult in most scenarios. Hybrid machine translation systems might be one of the solutions to overcome these problems, where we can combine the best of different approaches to achieve quality translation. The goal of the thesis is to explore different combinations of approaches and to evaluate their performance over the standard corpus based methods currently in use. This includes: 1. Use of syntax-based and dependency-based reordering rules with Statistical Machine Translation. 2. Automatic extraction of lexical and syntactic rules using statistical methods to facilitate the Transfer-Based Machine Translation. The novel element in the proposed work is to develop an algorithm to learn automatic reordering rules for English-to-Urdu statistical machine translation. Moreover, this approach can be extended to learn lexical and syntactic rules to build a rule-based machine translation system. | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
dc.identifier.lisID | 990013845020106986 | |