Proudové algoritmy pro Lp vzorkování velkých dat
Streaming Algorithms for Lp Sampling from Large Datasets
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/193058Identifikátory
SIS: 270271
Kolekce
- Kvalifikační práce [11327]
Autor
Vedoucí práce
Oponent práce
Vu, Tung Anh
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Programování a vývoj software
Katedra / ústav / klinika
Informatický ústav Univerzity Karlovy
Datum obhajoby
5. 9. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Velmi dobře
Klíčová slova (česky)
vzorkování|lineární sketching|proudové algoritmy|souhrny dat|algoritmus precision sampling|vzorkování nezávislé na frekvenciKlíčová slova (anglicky)
sampling|linear sketching|streaming algorithms|data summaries|precision sampling algorithm|distinct samplingRozsáhlé výpočty často vyžadují práci s daty daleko většími, než kolik máme k dis- pozici paměti. To vytváří potřebu umět shrnout velká data v malém prostoru. Jeden z možných postupů je Lp vzorkování. Jeho cílem je z proudu dat budujícího vektor frekvencí náhodně vybrat vzorek indexu s pravděpodobností úměrnou p-té mocnině jeho frekvence. V této práci popíšeme hlavní existující algoritmy pro Lp vzorkování s p = 0 a p = 2. Při tom představíme drobné vylepšení algoritmu pro Distinct sampling a doplníme odhad frekvence pro algoritmus Truly perfect sampler. Poté tyto algoritmy implementujeme a experimentálně vyhodnotíme jejich efektivitu.
Large-scale computations often require working with datasets far larger than the avail- able memory. That creates the need to summarise large data in small space. One of the possible techniques is Lp sampling. Its goal is to take a stream of data defining a vector of frequencies and randomly sample an index with the probability proportional to the p-th power of its frequency. In this work we will describe the main existing algorithms for Lp sampling with p = 0 a p = 2. In the process we will introduce a slight algorith- mic improvement for Distinct Sampling and extend the Truly Perfect Sampler algorithm with frequency estimation. Next we will implement these algorithms and experimentally evaluate their efficiency.