Deduplikační metody v databázích

Vávra, Petr

Deduplication methods in databases

diploma thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (89.70Kb)

Permanent link

http://hdl.handle.net/20.500.11956/34009

Identifiers

Study Information System: 88538

Referee

Skopal, Tomáš

Faculty / Institute

Faculty of Mathematics and Physics

Discipline

Software Systems

Department

Department of Software Engineering

Date of defense

6. 9. 2010

Publisher

Univerzita Karlova, Matematicko-fyzikální fakulta

Language

Czech

Grade

Very good

Keywords (Czech)

Deduplikace, unifikace, matching, kvalita dat

Keywords (English)

Deduplication, unification, matching, data quality

V této práci studujeme úlohy odhalování duplicit v databázích v rámci datové kvality. Za duplicity považujeme ty záznamy, které se sice mohou syntakticky lišit, ale které sémanticky představují tentýž objekt reálného světa. Hlavním cílem této práce je shrnout současné deduplikační metody z hlediska jejich nároků, výsledků a využitelnosti v praxi. Detailněji se zaměříme na porovnání dvou kategorií deduplikačních metod - těch, které vyžadují detailní informace o doméně, a těch, které se bez nich naopak dokáží obejít. Praktickou částí této práce je proto implementace vlastní metody z rodiny vzdálenostních metod nevyžadující žádné znalosti, jejíž výsledky porovnáme s výsledky komerčního nástroje používaného v praxi, který naopak využívá detailních znalostí dat, ve kterých jsou hledány duplicity.

Abstract (English)

In the present work we study the record deduplication problem as an issue of data quality. We define duplicates as records having different syntax and the same semantics and which are representing the same real-world entity. The main goal of this work is to provide the overview of existing deduplication methods according to their requirements, results and usability. We focus on the comparison of two groups of record deduplication methods - with and without the domain knowledge. Therefore, the second part of this work is dedicated to the implementation of our method which does not utilize any domain knowledge and compare its results with the results of commercial tool deeply utilizing the domain knowledge.

Citace dokumentu

Metadata

Show full item record