Proudové algoritmy pro Lp vzorkování velkých dat
Streaming Algorithms for Lp Sampling from Large Datasets
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/193058Identifiers
Study Information System: 270271
Collections
- Kvalifikační práce [11327]
Author
Advisor
Referee
Vu, Tung Anh
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science with specialisation in Programming and Software Development
Department
Computer Science Institute of Charles University
Date of defense
5. 9. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Very good
Keywords (Czech)
vzorkování|lineární sketching|proudové algoritmy|souhrny dat|algoritmus precision sampling|vzorkování nezávislé na frekvenciKeywords (English)
sampling|linear sketching|streaming algorithms|data summaries|precision sampling algorithm|distinct samplingRozsáhlé výpočty často vyžadují práci s daty daleko většími, než kolik máme k dis- pozici paměti. To vytváří potřebu umět shrnout velká data v malém prostoru. Jeden z možných postupů je Lp vzorkování. Jeho cílem je z proudu dat budujícího vektor frekvencí náhodně vybrat vzorek indexu s pravděpodobností úměrnou p-té mocnině jeho frekvence. V této práci popíšeme hlavní existující algoritmy pro Lp vzorkování s p = 0 a p = 2. Při tom představíme drobné vylepšení algoritmu pro Distinct sampling a doplníme odhad frekvence pro algoritmus Truly perfect sampler. Poté tyto algoritmy implementujeme a experimentálně vyhodnotíme jejich efektivitu.
Large-scale computations often require working with datasets far larger than the avail- able memory. That creates the need to summarise large data in small space. One of the possible techniques is Lp sampling. Its goal is to take a stream of data defining a vector of frequencies and randomly sample an index with the probability proportional to the p-th power of its frequency. In this work we will describe the main existing algorithms for Lp sampling with p = 0 a p = 2. In the process we will introduce a slight algorith- mic improvement for Distinct Sampling and extend the Truly Perfect Sampler algorithm with frequency estimation. Next we will implement these algorithms and experimentally evaluate their efficiency.