Hierarchická komprese
Hierarchical compression
diplomová práce (OBHÁJENO)
![Náhled dokumentu](/bitstream/handle/20.500.11956/33410/thumbnail.png?sequence=8&isAllowed=y)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/33410Identifikátory
SIS: 49670
Kolekce
- Kvalifikační práce [11264]
Autor
Vedoucí práce
Oponent práce
Dvořák, Tomáš
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
31. 1. 2011
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
textová komprese, trie, gramarická komprese, hierarchieKlíčová slova (anglicky)
text compression, trie, grammar based compression, hierarchyVětšina textových kompresních metod je založena na podobném principu. Vstupní text je rozdělen na posloupnost textových jednotek. Těmito textovými jednotkami jsou zpravidla znaky, slabiky nebo slova. Vyhledávání redundancí nad delšími textovými jednotkami je u velkých souborů zpravidla efektivnější. Výběrem slov jako textových jednotek ale ztrácíme možnost minimalizovat redundance nad slabikami a písmeny. V této práci jsme navrhli kompresní metodu, která konstruuje hierarchickou gramatiku zachycující redundance slabik, slov a delších částí textu. Následně namísto textových jednotek kóduje tuto gramatiku. Navrhli jsme strategii pro vytvoření této gramatiky na základě vstupního textu a popsali efektivní způsob jejího kódování. Součástí práce je porovnání efektivity této kompresní metody s jinými textovými metodami.
The most of existing text compression methods is based on the same base concept. First the Input text is divided into sequence of text units. These text units cat be single symbols, syllables or words. When compressing large text files, searching for redundancies over longer text units is usually more effective than searching over the shorter ones. But if we choose words as base units we cannot anymore catch redundancies over symbols and syllables. In this paper we propose a new text compression method called Hierarchical compresssion. It constructs hierarchical grammar to store redundancies over syllables, words and upper levels of text. The code of the text then consists of code of this grammer. We proposed a strategy for constructing hierarchical grammar for concrete input text and we proposed an effective way how to encode it. Above mentioned our proposed method is compared with some other common methods of text compression.