Použití filtrovacích algoritmů ve shlukové analýze
Use of filter algorithms in cluster analysis
bakalářská práce (OBHÁJENO)
![Náhled dokumentu](/bitstream/handle/20.500.11956/45940/thumbnail.png?sequence=8&isAllowed=y)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/45940Identifikátory
SIS: 107741
Kolekce
- Kvalifikační práce [11266]
Autor
Vedoucí práce
Oponent práce
Novák, Petr
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Finanční matematika
Katedra / ústav / klinika
Katedra pravděpodobnosti a matematické statistiky
Datum obhajoby
18. 6. 2012
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Velmi dobře
Klíčová slova (česky)
Shluková analýza, algoritmus k-průměrů, filtrovací algoritmus, algoritmus x-průměrůKlíčová slova (anglicky)
Cluster analysis, k-means algorithm, x-means algorithm, filtering algorithmPráce je rozdělena do pěti kapitol. V prvních dvou kapitolách shrnuji sebrané poznatky o shlukové analýze dat, uvádím definice pojmů použitých v~práci a popisuji algoritmus k-průměrů. Ve třetí kapitole se zabývám filtrovacím algoritmem, který využívá filtrovací heuristiku během průchodu MRKD-stromem a tím urychluje algoritmus k-průměrů. Ve čtvrté kapitole popisuji algoritmus x-průměrů, který využívá všechny dosud zmíněné poznatky. V páté kapitole testuji všechny algoritmy na uměle vytvořených datech a na reálných datech z fyziky, přitom se v některých případech odkazuji na program WEKA, v němž je algoritmus x-průměrů naimplementován. Algoritmy o kterých pojednává tato práce jsou určeny pro objekty popsané pouze kvantitativními proměnnými. Jsou také vhodné k použití na velké datové soubory. Na přiloženém CD uvádím implementaci algoritmů v jazyku Matlab.
The thesis is divided into five chapters. In the first two chapters I give the overview of clustering data analysis, I present definitions of terms used in the work and describe the k-means algorithm. Third chapter focuses on the filtering algorithm that uses heuristics when algorithm pass throught the MRKD-tree. The fourth chapter describes the x-means algorithm that uses all of the above-mentioned findings. In the fifth chapter I test all algorithms both on artificial and real data from physics. In some cases I refer to the WEKA program where the x-means algorithm is implemented. Algoritms that are discussed in this thesis are intended only for objects described by quantitative variables. They are also suitable for large datasets. In the attached CD I present the implementation of algorithms in Matlab language.