Semi-adaptivní slovníkové kompresní metody
Semi-adaptive Dictionary compression methods
diploma thesis (DEFENDED)
![Document thumbnail](/bitstream/handle/20.500.11956/19196/thumbnail.png?sequence=7&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/19196Identifiers
Study Information System: 49148
Collections
- Kvalifikační práce [11266]
Author
Advisor
Referee
Dvořák, Tomáš
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software systems
Department
Department of Software Engineering
Date of defense
2. 2. 2009
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Very good
Cílem této diplomové práce bylo navrhnout a experimentálně ověřit postupy vedoucí k vytvoření a kompresi slovníku ze vstupního souboru případně proudu dat, tak aby vstupní soubor po rozdělení na elementy tohoto slovníku byl optimalizován pro následné kompresní algoritmy. Vechny uvaoované metody procházejí vstup nadvakrát. Informace o vstupu získané při prvním průchodu využívají k zefektivnění druhého přechodu. Vytvořený slovník je součástí komprimovaného výstupu, proto je velmi důležitá jeho velikost. První část naš práce popisuje rozšíření již existujících metod TD2 a TD3[4] pro použití nad neomezenou abecedu. Metodu TD2 využíváme k uložení slovníku. Druhá část zkoumá možnosti vytvoření optimálního slovníku a způsob rozdělení vstupu pomocí toho slovníku bez rozlišování slov, slabik. Všechny operace jsou uvažovány nad relativně neomezenou abecedou unicodu. Pro experimenty byl použit modulární program XBW, navržené postupy byly realizovány a otestovány jako modul toho programu.
Goal of this work was to design and test methods for creating and parsing input data from file or stream in a way they are optimalized for following compression algorithms. We used two runs through data, first run collected analytical data and second run was for parsing. First part of this document is focused on methods TD2 and TD3 [4] for trie compression and their extension for unicode alphabets. In second part there are presented methods for creating dictionary without considering partitiong on words or syllabels. All methods are considered over unicode alphabet and implemetned as part of modular program XBW.