Data Profiling
Data Profiling
diploma thesis (DEFENDED)
![Document thumbnail](/bitstream/handle/20.500.11956/31127/thumbnail.png?sequence=7&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/31127Identifiers
Study Information System: 69063
Collections
- Kvalifikační práce [11264]
Author
Advisor
Referee
Galgonek, Jakub
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Discrete Mathematics and Optimization
Department
Department of Software Engineering
Date of defense
24. 5. 2010
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Good
Název práce: Data Profiling Autor: Radka Hladíková Katedra (ústav): Katedra softwarového inženýrství (KSI) Vedoucí diplomové práce: Ing. Vladimír Kyjonka e-mail vedoucího: Vladimir.Kyjonka@cze.sas.com Abstrakt: Diplomová práce se zabývá problematikou datové kvality a data profilingem. Práce analyzuje a shrnuje problematiku datové kvality, datových defektů, procesu datové kvality, měření kvality dat a data profilingu. Hlavním tématem je data profilig jako proces zkoumání dat dostupných v existujících zdrojích dat a vytváření statistik a informací o těchto datech. Je zde navrhnut systém pro vyhodnocování stavu dat z hlediska jejich kvality. Práce se zaměřuje na měření obecných charakteristik dat, sledování datových defektů a jejich analýzu. Pro reálná data je navrhnut a za pomocí SW datové kvality realizován systém pro vyhodnocení datové kvality. Klíčová slova: datová kvalita, data profing, metrika datové kvality, DataFlux
Title: Data Profiling Author: Radka Hladíková Department: Department of Software Engineering Supervisor: Ing. Vladimír Kyjonka Supervisor's e-mail address: Vladimir.Kyjonka@cze.sas.com Abstract: This thesis puts mind on problems with data quality and data profiling. This Work analyses and summarizes problems of data quality, data defects, process of data quality, data quality assessment and data profiling. The main topic is data profiling as a process of researching data available in existing data sources and creating of statistics and information about these data. There is a projected system for evaluating data status in term of its quality. Work is focused on measuring of general characteristic of data, following data defects and its analyses. With the help of data quality SW there is a projected and realized system for evaluation of data quality for real data. Keywords: data quality, data profiling, data quality metric, DataFlux