Zobrazit minimální záznam

Přesné efektivní inkrementální modifikace grafu datových toků
dc.contributor.advisorParízek, Pavel
dc.creatorKumstýř, Josef
dc.date.accessioned2022-06-28T10:23:15Z
dc.date.available2022-06-28T10:23:15Z
dc.date.issued2022
dc.identifier.urihttp://hdl.handle.net/20.500.11956/173511
dc.description.abstractData lineage forms an essential aspect of today's enterprise environment. MANTA Flow is a data lineage analysis platform that works based on extracting and analyzing customers' source files. However, often the customer wants to update the data lineage graph because of a slight change in provided source files. However, all of the input source files are currently reanalyzed, and most of the time is wasted analyzing unchanged files. In the thesis, we presented how the data lineage analyzer can be improved using incremental updates to analyze only a fraction of all input files while still producing the same correct data lineage. We changed how the whole analysis is done by changing the granularity of the anal- ysis to much smaller pieces. We also improved the merge algorithm to recognize when an unchanged file could generate a different data lineage using new concepts like source segments, node removal, or node creation. The new MANTA client algorithm now ana- lyzes only changed files and a few unchanged files that could generate a different lineage compared to the last analysis. We also implemented a prototype for the MANTA Oracle scanner that contains these new ideas. It was tested for both the correctness and the performance. 1en_US
dc.description.abstractDatové toky jsou důležitým aspektem dnešního korporátního prostředí. MANTA Flow je platforma pro analýzu datových toků, která funguje na základě extrakce a analýzy zdrojových souborů zákazníka. Často se však stává, že zákazník chce aktualizovat graf datových toků pouze kvůli malé změně v jeho zdrojových souborech. Současně se ale v takovém případě všechny vstupní zdrojové soubory analyzují znovu a většina času se tak promarní analýzou nezměněných souborů. V této práci jsme představili způsob, jak lze analyzátor datových toků vylepšit pomocí inkrementálních updatů tak, aby analyzoval pouze zlomek všech vstupních souborů a přitom stále produkoval správné datové toky. V rámci práce jsme změnili způsob provádění celé analýzy tím, že jsme změnili gran- ularitu analýzy na mnohem menší části. Také jsme vylepšili mergovací algoritmus, aby rozpoznal, kdy by nezměněný soubor mohl vygenerovat rozdílný datový tok pomocí nových konceptů, jako jsou zdrojové segmenty, nebo nové akce při odstranění či vytvoření vrcholu. Na základě toho nyní upravený algoritmus analyzuje pouze všechny změněné soubory a několik málo nezměněných souborů, které by mohly vygenerovat odlišný datový tok ve srovnání s předchozí analýzou. Implementovali jsme také prototyp pro MANTA Oracle skener, který využívá těchto nových konceptů. Prototyp byl...cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subject{datové toky}|{inkrementální update}|{statická analýza}|{graf datových toků}|{Manta}cs_CZ
dc.subject{data lineage}|{incremental updates}|{static analysis}|{data flow graph}|{Manta}en_US
dc.titlePrecise and Efficient Incremental Update of Data Lineage Graphen_US
dc.typediplomová prácecs_CZ
dcterms.created2022
dcterms.dateAccepted2022-06-07
dc.description.departmentDepartment of Distributed and Dependable Systemsen_US
dc.description.departmentKatedra distribuovaných a spolehlivých systémůcs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId234472
dc.title.translatedPřesné efektivní inkrementální modifikace grafu datových tokůcs_CZ
dc.contributor.refereeZavoral, Filip
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineSoftwarové systémycs_CZ
thesis.degree.disciplineSoftware Systemsen_US
thesis.degree.programInformatikacs_CZ
thesis.degree.programComputer Scienceen_US
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Katedra distribuovaných a spolehlivých systémůcs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Department of Distributed and Dependable Systemsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csSoftwarové systémycs_CZ
uk.degree-discipline.enSoftware Systemsen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csDatové toky jsou důležitým aspektem dnešního korporátního prostředí. MANTA Flow je platforma pro analýzu datových toků, která funguje na základě extrakce a analýzy zdrojových souborů zákazníka. Často se však stává, že zákazník chce aktualizovat graf datových toků pouze kvůli malé změně v jeho zdrojových souborech. Současně se ale v takovém případě všechny vstupní zdrojové soubory analyzují znovu a většina času se tak promarní analýzou nezměněných souborů. V této práci jsme představili způsob, jak lze analyzátor datových toků vylepšit pomocí inkrementálních updatů tak, aby analyzoval pouze zlomek všech vstupních souborů a přitom stále produkoval správné datové toky. V rámci práce jsme změnili způsob provádění celé analýzy tím, že jsme změnili gran- ularitu analýzy na mnohem menší části. Také jsme vylepšili mergovací algoritmus, aby rozpoznal, kdy by nezměněný soubor mohl vygenerovat rozdílný datový tok pomocí nových konceptů, jako jsou zdrojové segmenty, nebo nové akce při odstranění či vytvoření vrcholu. Na základě toho nyní upravený algoritmus analyzuje pouze všechny změněné soubory a několik málo nezměněných souborů, které by mohly vygenerovat odlišný datový tok ve srovnání s předchozí analýzou. Implementovali jsme také prototyp pro MANTA Oracle skener, který využívá těchto nových konceptů. Prototyp byl...cs_CZ
uk.abstract.enData lineage forms an essential aspect of today's enterprise environment. MANTA Flow is a data lineage analysis platform that works based on extracting and analyzing customers' source files. However, often the customer wants to update the data lineage graph because of a slight change in provided source files. However, all of the input source files are currently reanalyzed, and most of the time is wasted analyzing unchanged files. In the thesis, we presented how the data lineage analyzer can be improved using incremental updates to analyze only a fraction of all input files while still producing the same correct data lineage. We changed how the whole analysis is done by changing the granularity of the anal- ysis to much smaller pieces. We also improved the merge algorithm to recognize when an unchanged file could generate a different data lineage using new concepts like source segments, node removal, or node creation. The new MANTA client algorithm now ana- lyzes only changed files and a few unchanged files that could generate a different lineage compared to the last analysis. We also implemented a prototype for the MANTA Oracle scanner that contains these new ideas. It was tested for both the correctness and the performance. 1en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Katedra distribuovaných a spolehlivých systémůcs_CZ
thesis.grade.code1
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV