Komprese slovníku
Compression of dictionary
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/10406Identifikátory
SIS: 45358
Kolekce
- Kvalifikační práce [11244]
Autor
Vedoucí práce
Oponent práce
Žemlička, Michal
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Programování
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
25. 6. 2007
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Tématem této práce je vylepšení existující metody TD3 pro kompresi slovníku. Metoda TD3 je postavena na kódování datové struktury trie, což je pre fixový strom sloužící k uložení asociativního pole, v němž jsou klíčem řetězce. TD3 kóduje každý jednotlivý uzel trie za pomoci Eliasových Gamma a Delta kódů. Prvním z vylepšení je nahrazení Eliasových kódů statickým, resp. adaptivním Hu manovým kódováním. Další rozšíření upravují způsob kódování jednotlivých informací, které je nutné pro uzly uchovávat. Nová metoda TD4 byla otestována na rozsáhlém korpusu a součástí práce je i zhodnocení naměřených výsledků.
This thesis deals with improving the existing dictionary compression method TD3. This method is based on encoding of the trie data structure, which is pre x tree serving as a storage of an associative array in which strings are used as keys. TD3 encodes each node using Elias Gamma and Delta codes. First enhancement over TD3 is replacing Elias codes with static and adaptive Hu man coding. Next improvements present a di erent way the node information are coded. The new TD4 method was benchmarked on a huge corpus and this thesis comprises among others an evaluation of the measured results.