Optimalizace přístupu pro odvozování schématu z multi-modelových dat
An optimization of an approach for the inference of schema from multi-model data
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/192813Identifikátory
SIS: 265066
Kolekce
- Kvalifikační práce [11326]
Autor
Vedoucí práce
Oponent práce
Bártík, Jáchym
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Programování a vývoj software
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
5. 9. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
Optimalizace|Odvozování schéma|NoSQL databáze|ProfilováníKlíčová slova (anglicky)
Optimalization|Schema inference|NoSQL databases|ProfilingS rostoucím významem (multi-modelových) NoSQL systémů bez nebo s částečným schématem, které by přesně definovalo jednotlivé atributy v záznamech, je možnost zpět- ného odvození tohoto schématu z dat potřebná pro řadu aplikací. Projekt MM-infer, dříve vytvořený jako diplomová práce, umožňuje zpětně extrahovat toto schéma. Tento projekt však trpí nedostatky ve výkonosti, což limitovalo jeho použitelnost hlavně na velkých a komplexních datech. Tato práce pokračuje v projektu MM-infer a optimalizuje v první řadě jeho rychlost. Dále také opravuje některé chyby, které se nevyhnutelně vyskytly při jeho vytváření. Nakonec zvyšuje přesnost odvozovaného schéma přidáním další heuristiky identifikující hlavní prvky ve schématu do jednoho z algoritmů. 1
With the increasing importance of (multi-model) NoSQL systems without or with partial schema, which would precisely define each attribute in the records, is an option to reverse infer this schema from the data needed for plenty of applications. Project MM-infer created earlier as a master thesis enables to extract this schema. This project however suffers from faults in performance which limited its usability mainly on large and complex data. This thesis continues in MM-infer project and optimizes primaly its speed. It also fixes some bugs, which were inevitably created during its creation. At last it increases precision of the inferred schema by adding new heuristics which identify main elements in the schema from one of its algorithms. 1