Komprese slovníku
Compression of dictionary
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/10406Identifiers
Study Information System: 45358
Collections
- Kvalifikační práce [11264]
Author
Advisor
Referee
Žemlička, Michal
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Programming
Department
Department of Software Engineering
Date of defense
25. 6. 2007
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Tématem této práce je vylepšení existující metody TD3 pro kompresi slovníku. Metoda TD3 je postavena na kódování datové struktury trie, což je pre fixový strom sloužící k uložení asociativního pole, v němž jsou klíčem řetězce. TD3 kóduje každý jednotlivý uzel trie za pomoci Eliasových Gamma a Delta kódů. Prvním z vylepšení je nahrazení Eliasových kódů statickým, resp. adaptivním Hu manovým kódováním. Další rozšíření upravují způsob kódování jednotlivých informací, které je nutné pro uzly uchovávat. Nová metoda TD4 byla otestována na rozsáhlém korpusu a součástí práce je i zhodnocení naměřených výsledků.
This thesis deals with improving the existing dictionary compression method TD3. This method is based on encoding of the trie data structure, which is pre x tree serving as a storage of an associative array in which strings are used as keys. TD3 encodes each node using Elias Gamma and Delta codes. First enhancement over TD3 is replacing Elias codes with static and adaptive Hu man coding. Next improvements present a di erent way the node information are coded. The new TD4 method was benchmarked on a huge corpus and this thesis comprises among others an evaluation of the measured results.