Semi-adaptivní slovníkové kompresní metody

Urban, Tomáš

Semi-adaptive Dictionary compression methods

diploma thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (11.57Kb)

Permanent link

http://hdl.handle.net/20.500.11956/19196

Identifiers

Study Information System: 49148

Referee

Dvořák, Tomáš

Faculty / Institute

Faculty of Mathematics and Physics

Discipline

Software systems

Department

Department of Software Engineering

Date of defense

2. 2. 2009

Publisher

Univerzita Karlova, Matematicko-fyzikální fakulta

Language

Czech

Grade

Very good

Cílem této diplomové práce bylo navrhnout a experimentálně ověřit postupy vedoucí k vytvoření a kompresi slovníku ze vstupního souboru případně proudu dat, tak aby vstupní soubor po rozdělení na elementy tohoto slovníku byl optimalizován pro následné kompresní algoritmy. Vechny uvaoované metody procházejí vstup nadvakrát. Informace o vstupu získané při prvním průchodu využívají k zefektivnění druhého přechodu. Vytvořený slovník je součástí komprimovaného výstupu, proto je velmi důležitá jeho velikost. První část naš práce popisuje rozšíření již existujících metod TD2 a TD3[4] pro použití nad neomezenou abecedu. Metodu TD2 využíváme k uložení slovníku. Druhá část zkoumá možnosti vytvoření optimálního slovníku a způsob rozdělení vstupu pomocí toho slovníku bez rozlišování slov, slabik. Všechny operace jsou uvažovány nad relativně neomezenou abecedou unicodu. Pro experimenty byl použit modulární program XBW, navržené postupy byly realizovány a otestovány jako modul toho programu.

Abstract (English)

Goal of this work was to design and test methods for creating and parsing input data from file or stream in a way they are optimalized for following compression algorithms. We used two runs through data, first run collected analytical data and second run was for parsing. First part of this document is focused on methods TD2 and TD3 [4] for trie compression and their extension for unicode alphabets. In second part there are presented methods for creating dictionary without considering partitiong on words or syllabels. All methods are considered over unicode alphabet and implemetned as part of modular program XBW.

Citace dokumentu

Metadata

Show full item record