Semi-adaptivní slovníkové kompresní metody

Urban, Tomáš

Semi-adaptive Dictionary compression methods

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (11.57Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/19196

Identifikátory

SIS: 49148

Oponent práce

Dvořák, Tomáš

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Softwarové systémy

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

2. 2. 2009

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Velmi dobře

Cílem této diplomové práce bylo navrhnout a experimentálně ověřit postupy vedoucí k vytvoření a kompresi slovníku ze vstupního souboru případně proudu dat, tak aby vstupní soubor po rozdělení na elementy tohoto slovníku byl optimalizován pro následné kompresní algoritmy. Vechny uvaoované metody procházejí vstup nadvakrát. Informace o vstupu získané při prvním průchodu využívají k zefektivnění druhého přechodu. Vytvořený slovník je součástí komprimovaného výstupu, proto je velmi důležitá jeho velikost. První část naš práce popisuje rozšíření již existujících metod TD2 a TD3[4] pro použití nad neomezenou abecedu. Metodu TD2 využíváme k uložení slovníku. Druhá část zkoumá možnosti vytvoření optimálního slovníku a způsob rozdělení vstupu pomocí toho slovníku bez rozlišování slov, slabik. Všechny operace jsou uvažovány nad relativně neomezenou abecedou unicodu. Pro experimenty byl použit modulární program XBW, navržené postupy byly realizovány a otestovány jako modul toho programu.

Abstrakt (anglicky)

Goal of this work was to design and test methods for creating and parsing input data from file or stream in a way they are optimalized for following compression algorithms. We used two runs through data, first run collected analytical data and second run was for parsing. First part of this document is focused on methods TD2 and TD3 [4] for trie compression and their extension for unicode alphabets. In second part there are presented methods for creating dictionary without considering partitiong on words or syllabels. All methods are considered over unicode alphabet and implemetned as part of modular program XBW.

Citace dokumentu

Metadata

Zobrazit celý záznam