dc.contributor.advisor | Bojar, Ondřej | |
dc.creator | Klempová, Hana | |
dc.date.accessioned | 2017-04-20T13:07:27Z | |
dc.date.available | 2017-04-20T13:07:27Z | |
dc.date.issued | 2009 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/26748 | |
dc.description.abstract | Aplikace WebCorpus byla implementována s cílem vyvinout funkční nástroj pro tvorbu paralelního (česko-anglického) korpusu z daných webů. Paralelním korpusem rozumíme množinu dvojic textů, které jsou si s největší pravděpodobností překladem. Tato práce detailně popisuje zvolený algoritmus a porovnává implementované metody. Během vyhledávání paralelních dokumentů porovnáváme informace o struktuře textu a nejčastějších slovech. Nakonec dokládáme použitelnost celé aplikace spárováním textů z jednoho velkého a několika menších webů. | cs_CZ |
dc.description.abstract | The aim of the thesis is to develop a complex tool for creating parallel corpora for a pair of languages (Czech and English) from a given list of websites. A parallel corpus is a set of pairs of documents which are translations of each other. The thesis describes the chosen algorithm in detail and compares all implemented methods. We use document structure as well as most frequent words and their translations to find matching documents in the collection. Finally, we con rm the applicability of the whole system by aligning texts from one bigger and a few smaller websites. | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.title | Nástroj pro sběr paralelních textů z webu | cs_CZ |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2009 | |
dcterms.dateAccepted | 2009-06-22 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 45328 | |
dc.title.translated | A Tool for Collecting Parallel Texts from the Web | en_US |
dc.contributor.referee | Ježek, Pavel | |
dc.identifier.aleph | 001133087 | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | Obecná informatika | cs_CZ |
thesis.degree.discipline | General Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Obecná informatika | cs_CZ |
uk.degree-discipline.en | General Computer Science | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Velmi dobře | cs_CZ |
thesis.grade.en | Very good | en_US |
uk.abstract.cs | Aplikace WebCorpus byla implementována s cílem vyvinout funkční nástroj pro tvorbu paralelního (česko-anglického) korpusu z daných webů. Paralelním korpusem rozumíme množinu dvojic textů, které jsou si s největší pravděpodobností překladem. Tato práce detailně popisuje zvolený algoritmus a porovnává implementované metody. Během vyhledávání paralelních dokumentů porovnáváme informace o struktuře textu a nejčastějších slovech. Nakonec dokládáme použitelnost celé aplikace spárováním textů z jednoho velkého a několika menších webů. | cs_CZ |
uk.abstract.en | The aim of the thesis is to develop a complex tool for creating parallel corpora for a pair of languages (Czech and English) from a given list of websites. A parallel corpus is a set of pairs of documents which are translations of each other. The thesis describes the chosen algorithm in detail and compares all implemented methods. We use document structure as well as most frequent words and their translations to find matching documents in the collection. Finally, we con rm the applicability of the whole system by aligning texts from one bigger and a few smaller websites. | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
dc.identifier.lisID | 990011330870106986 | |