Zobrazit minimální záznam

Klasifikace proudu dat s náhlou změnou distribuce v podmnožině charakteristik
dc.contributor.advisorLisý, Viliam
dc.creatorProcházka, Martin
dc.date.accessioned2024-11-29T07:04:19Z
dc.date.available2024-11-29T07:04:19Z
dc.date.issued2024
dc.identifier.urihttp://hdl.handle.net/20.500.11956/193091
dc.description.abstractDetekce malwaru je klíčovým aspektem kybernetické bezpečnosti a představuje řadu výzev, zejména ve scénářích uvažujících proud dat, kde dochází k silné změně distribuce a velkému zpoždění mezi obdržením dat a získáním jich třídy. Změna distribuce je charak- terizována přítomností vysoce indikativních, ale rychle se měnících rysů, jako jsou speci- fické názvy souborů nebo mutexy. Malware však vykazuje také řadu stabilních rysů, jako jsou typy připojení nebo metody zpeněžení, které zůstávají v čase relativně konzis- tentní. V této práci formalizujeme tento scénář a dále zkoumáme hypotézu, že adaptivní odstranění silně driftujících podmnožin rysů může mít velký vliv na výkonnost algo- ritmu. V práci prokažeme, že současné metody opravdu vykazují nedostatky spojené s těmito rysy, zejména potom v krátkých obdobích po příchodu nové distribuce. Aby- chom ověřili hypotézu o zlepšení výkonnosti prostřednictvím adaptivního odstraňování příznaků, předkládáme dvě řešení: jedno založené na detekci změny distribuce pomocí Hellingerovy vzdálenosti a druhé na inkrementálním algoritmu Gaussian Mixture Model. Oba přístupy vyhodnocujeme na reálných datech a na naší syntetické datové sadě a ukazujeme výrazné zlepšení na syntetických datech a slibné výsledky na reálných datech. Kromě toho uvádíme komplexní vysvětlení technik...cs_CZ
dc.description.abstractMalware detection is a crucial aspect of cybersecurity, presenting several challenges, particularly in data stream scenarios that experience strong concept drift and label de- lay. The concept drift is characterized by the presence of highly influential yet rapidly changing features, such as specific filenames or mutexes, alongside stable features, such as connection types or monetization methods, which remain relatively consistent over time. In this thesis, we formalize this scenario and further exploit the hypothesis that the adaptive removal of severely drifting subsets of features may have a great impact on procedure performance. We indeed demonstrate that current methods exhibit shortcom- ings connected with these features, especially during short periods following the arrival of a new concept. To validate the hypothesis of performance improvement through adaptive feature elimination, we propose two solutions: one based on Hellinger distance concept drift detection and the other on an incremental Gaussian Mixture Model algorithm. We evaluate both approaches using real-life data and our synthetic dataset, showing sig- nificant improvements on the synthetic dataset and promising results on real-life data. Additionally, we provide a comprehensive explanation of the techniques employed in the thesis. 1en_US
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectmalware detection|concept drift|data stream|concept drift detection|Gaussian Mixture Modelsen_US
dc.subjectdetekce škodlivého software|změna distribuce|proud dat|detekce změny distribuce|Gaussian Mixture Modelscs_CZ
dc.titleClassification in data streams with abrupt concept drift in a subset of featuresen_US
dc.typediplomová prácecs_CZ
dcterms.created2024
dcterms.dateAccepted2024-09-06
dc.description.departmentDepartment of Algebraen_US
dc.description.departmentKatedra algebrycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId266139
dc.title.translatedKlasifikace proudu dat s náhlou změnou distribuce v podmnožině charakteristikcs_CZ
dc.contributor.refereeBošanský, Branislav
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineMathematics for Information Technologiesen_US
thesis.degree.disciplineMatematika pro informační technologiecs_CZ
thesis.degree.programMathematics for Information Technologiesen_US
thesis.degree.programMatematika pro informační technologiecs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Katedra algebrycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Department of Algebraen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csMatematika pro informační technologiecs_CZ
uk.degree-discipline.enMathematics for Information Technologiesen_US
uk.degree-program.csMatematika pro informační technologiecs_CZ
uk.degree-program.enMathematics for Information Technologiesen_US
thesis.grade.csVelmi dobřecs_CZ
thesis.grade.enVery gooden_US
uk.abstract.csDetekce malwaru je klíčovým aspektem kybernetické bezpečnosti a představuje řadu výzev, zejména ve scénářích uvažujících proud dat, kde dochází k silné změně distribuce a velkému zpoždění mezi obdržením dat a získáním jich třídy. Změna distribuce je charak- terizována přítomností vysoce indikativních, ale rychle se měnících rysů, jako jsou speci- fické názvy souborů nebo mutexy. Malware však vykazuje také řadu stabilních rysů, jako jsou typy připojení nebo metody zpeněžení, které zůstávají v čase relativně konzis- tentní. V této práci formalizujeme tento scénář a dále zkoumáme hypotézu, že adaptivní odstranění silně driftujících podmnožin rysů může mít velký vliv na výkonnost algo- ritmu. V práci prokažeme, že současné metody opravdu vykazují nedostatky spojené s těmito rysy, zejména potom v krátkých obdobích po příchodu nové distribuce. Aby- chom ověřili hypotézu o zlepšení výkonnosti prostřednictvím adaptivního odstraňování příznaků, předkládáme dvě řešení: jedno založené na detekci změny distribuce pomocí Hellingerovy vzdálenosti a druhé na inkrementálním algoritmu Gaussian Mixture Model. Oba přístupy vyhodnocujeme na reálných datech a na naší syntetické datové sadě a ukazujeme výrazné zlepšení na syntetických datech a slibné výsledky na reálných datech. Kromě toho uvádíme komplexní vysvětlení technik...cs_CZ
uk.abstract.enMalware detection is a crucial aspect of cybersecurity, presenting several challenges, particularly in data stream scenarios that experience strong concept drift and label de- lay. The concept drift is characterized by the presence of highly influential yet rapidly changing features, such as specific filenames or mutexes, alongside stable features, such as connection types or monetization methods, which remain relatively consistent over time. In this thesis, we formalize this scenario and further exploit the hypothesis that the adaptive removal of severely drifting subsets of features may have a great impact on procedure performance. We indeed demonstrate that current methods exhibit shortcom- ings connected with these features, especially during short periods following the arrival of a new concept. To validate the hypothesis of performance improvement through adaptive feature elimination, we propose two solutions: one based on Hellinger distance concept drift detection and the other on an incremental Gaussian Mixture Model algorithm. We evaluate both approaches using real-life data and our synthetic dataset, showing sig- nificant improvements on the synthetic dataset and promising results on real-life data. Additionally, we provide a comprehensive explanation of the techniques employed in the thesis. 1en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Katedra algebrycs_CZ
thesis.grade.code2
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV