dc.contributor.advisor | Lánský, Jan | |
dc.creator | Szabó, Mária | |
dc.date.accessioned | 2017-04-12T09:50:19Z | |
dc.date.available | 2017-04-12T09:50:19Z | |
dc.date.issued | 2008 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/17214 | |
dc.description.abstract | XBW [9] je modulární program na bezeztrátovou komprimaci textů umožňující použití růných kompresních algoritmů. Název XBW pochází ze spojení slov XML a BWT, protože právě v kombinaci XML parseru s Burrows-Wheelerovou transformací byly dosaženy nejlepší výsledky. Proto se v práci zaměřujeme na zlepšení výsledků v kombinaci s BWT. Na souborech o velikosti kolem 20MB, tvořených stovkami konkatenovaných webových stránek, jsme dokázali zrychlit aplikaci až o 37% za cenu zhoršení kompresního poměru o 5%. Avšak i s tímto zhoršením máme stále nejméně o 38% lepší kompresní poměr oproti programu Rar. Zrychlení bylo dosaženo implementací nového typu parseru používajícího slovníky tagů a elementů. Práce obsahuje rovněž reimplementaci parseru z původního projektu XBW změněnou od základů zachovávající princip použití slovníků tagů a atributů. Reimplementace vedla k průměrnému zlepšení kompresního poměru o 2% za současného průměrného zrychlení běhu aplikace o 4%. | cs_CZ |
dc.description.abstract | XBW [9] is a modular application for lossless text compression, which enables to use several compression algorithms. The best results were reached with the combination of XML parser and Burrows-Wheeler transformation. Thus XBW stands for merged shortcuts XML and BWT. Therefore we try to improve the results in combination with BWT in the thesis. On les with size about 20MB, generated from hundreds of concatenated webpages, we achieve 37 % faster compression time at the cost of 5% worse compression ratio. However, this compression ratio is by 38% better when it comes to confrontation with Rar software. This acceleration was reached by a new type of parser based on dictionaries of tags and elements. Thesis contains also a new, completely rewritten, implementation of original parser, based on the same principle of tag and attribute dictionaries. With this reimplemetation we improved the average compression speed by 4% and average compression ratio by 2%. | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.title | Heuristiky pro kompresi špatně formovaného XML | cs_CZ |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2008 | |
dcterms.dateAccepted | 2008-09-24 | |
dc.description.department | Katedra softwarového inženýrství | cs_CZ |
dc.description.department | Department of Software Engineering | en_US |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 48622 | |
dc.title.translated | Heuristics for compression of non-well-formed XML | en_US |
dc.contributor.referee | Matouš, Václav | |
dc.identifier.aleph | 001037674 | |
thesis.degree.name | Mgr. | |
thesis.degree.level | magisterské | cs_CZ |
thesis.degree.discipline | Softwarové systémy | cs_CZ |
thesis.degree.discipline | Software systems | en_US |
thesis.degree.program | Informatika | cs_CZ |
thesis.degree.program | Informatics | en_US |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Katedra softwarového inženýrství | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Department of Software Engineering | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Softwarové systémy | cs_CZ |
uk.degree-discipline.en | Software systems | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Informatics | en_US |
thesis.grade.cs | Velmi dobře | cs_CZ |
thesis.grade.en | Very good | en_US |
uk.abstract.cs | XBW [9] je modulární program na bezeztrátovou komprimaci textů umožňující použití růných kompresních algoritmů. Název XBW pochází ze spojení slov XML a BWT, protože právě v kombinaci XML parseru s Burrows-Wheelerovou transformací byly dosaženy nejlepší výsledky. Proto se v práci zaměřujeme na zlepšení výsledků v kombinaci s BWT. Na souborech o velikosti kolem 20MB, tvořených stovkami konkatenovaných webových stránek, jsme dokázali zrychlit aplikaci až o 37% za cenu zhoršení kompresního poměru o 5%. Avšak i s tímto zhoršením máme stále nejméně o 38% lepší kompresní poměr oproti programu Rar. Zrychlení bylo dosaženo implementací nového typu parseru používajícího slovníky tagů a elementů. Práce obsahuje rovněž reimplementaci parseru z původního projektu XBW změněnou od základů zachovávající princip použití slovníků tagů a atributů. Reimplementace vedla k průměrnému zlepšení kompresního poměru o 2% za současného průměrného zrychlení běhu aplikace o 4%. | cs_CZ |
uk.abstract.en | XBW [9] is a modular application for lossless text compression, which enables to use several compression algorithms. The best results were reached with the combination of XML parser and Burrows-Wheeler transformation. Thus XBW stands for merged shortcuts XML and BWT. Therefore we try to improve the results in combination with BWT in the thesis. On les with size about 20MB, generated from hundreds of concatenated webpages, we achieve 37 % faster compression time at the cost of 5% worse compression ratio. However, this compression ratio is by 38% better when it comes to confrontation with Rar software. This acceleration was reached by a new type of parser based on dictionaries of tags and elements. Thesis contains also a new, completely rewritten, implementation of original parser, based on the same principle of tag and attribute dictionaries. With this reimplemetation we improved the average compression speed by 4% and average compression ratio by 2%. | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra softwarového inženýrství | cs_CZ |
dc.identifier.lisID | 990010376740106986 | |