Procedura SDKL - Miner pro dobývání znalostí z databází
Procedure SDKL-Miner for data mining
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/13249Identifiers
Study Information System: 41245
Collections
- Kvalifikační práce [11244]
Author
Advisor
Referee
Lín, Václav
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Data Engineering
Department
Department of Software Engineering
Date of defense
18. 9. 2007
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Good
SDKL-Miner je nová GUHA procedura pro dobývání znalostí z databází. Rozšiřuje systém LISp-Miner, který je vyvíjen na VŠE Praha. SDKL-Miner hledá nové potencionálně zajímavé hypotézy pomocí dvojice kontingenčních tabulek. Do procedury SDKL-Miner byl implementován jednoduchý kvantifikátor. Diplomová práce obsahuje testy a nalezené zajímavé hypotézy pro jednoduchý kvantifikátor společně s příklady užití kvantifikátoru. V práci jsou navrženy směry dalšího vývoje, jak pro proceduru SDKL-Miner, tak i pro celý systém LISp-Miner. Použití statistických testů závislosti a použití vektorové i maticové majorizace je podrobně rozebráno. Procedura je výsledkem kontinuálního vývoje akademického systému LISp-Miner pro dobývání znalostí z databází.
A new data mining GUHA procedure SDKL-Miner is presented which extends current data mining system LISp-Miner developed on the VŠE Praha. The procedure mines for various patterns based on evaluation of two two-dimensional contingency tables. A simple comparing quantifier is implemented. Tests and new results for this quantifier are presented together with set of examples of it's use. New directions of future development are proposed. The use of statistical dependency tests and the use of both vector and matrix majorization are analyzed in more details. The procedure is a result of continued development of the academic LISp-Miner system for knowledge discovery and data mining.