Optimalizace přístupu pro odvozování schématu z multi-modelových dat

Šimek, Jan

An optimization of an approach for the inference of schema from multi-model data

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (347.1Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/192813

Identifikátory

SIS: 265066

Oponent práce

Bártík, Jáchym

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika se specializací Programování a vývoj software

Katedra / ústav / klinika

Katedra softwarového inženýrství

Datum obhajoby

5. 9. 2024

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Výborně

Klíčová slova (česky)

Optimalizace|Odvozování schéma|NoSQL databáze|Profilování

Klíčová slova (anglicky)

Optimalization|Schema inference|NoSQL databases|Profiling

S rostoucím významem (multi-modelových) NoSQL systémů bez nebo s částečným schématem, které by přesně definovalo jednotlivé atributy v záznamech, je možnost zpět- ného odvození tohoto schématu z dat potřebná pro řadu aplikací. Projekt MM-infer, dříve vytvořený jako diplomová práce, umožňuje zpětně extrahovat toto schéma. Tento projekt však trpí nedostatky ve výkonosti, což limitovalo jeho použitelnost hlavně na velkých a komplexních datech. Tato práce pokračuje v projektu MM-infer a optimalizuje v první řadě jeho rychlost. Dále také opravuje některé chyby, které se nevyhnutelně vyskytly při jeho vytváření. Nakonec zvyšuje přesnost odvozovaného schéma přidáním další heuristiky identifikující hlavní prvky ve schématu do jednoho z algoritmů. 1

Abstrakt (anglicky)

With the increasing importance of (multi-model) NoSQL systems without or with partial schema, which would precisely define each attribute in the records, is an option to reverse infer this schema from the data needed for plenty of applications. Project MM-infer created earlier as a master thesis enables to extract this schema. This project however suffers from faults in performance which limited its usability mainly on large and complex data. This thesis continues in MM-infer project and optimizes primaly its speed. It also fixes some bugs, which were inevitably created during its creation. At last it increases precision of the inferred schema by adding new heuristics which identify main elements in the schema from one of its algorithms. 1

Citace dokumentu

Metadata

Zobrazit celý záznam