Dynamická detekce plagiátů
Detection of Plagiarism
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/18913Identifiers
Study Information System: 48056
Collections
- Kvalifikační práce [11264]
Author
Advisor
Referee
Ondreička, Matúš
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software Engineering
Date of defense
2. 2. 2009
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Tato diplomová práce analyzuje možnosti rozšíření postupů používaných internetovými vyhledávači na problém efektivní detekce plagiátů. Práce se zaměřuje na 1:N metody detekce plagiátů v situaci, kdy korpusem je velmi rozsáhlá dynamicky se měnící kolekce dokumentů. K implementaci je zvolena pravděpodobnostní metoda aproximace Jaccardovy míry podobnosti pomocí hešování v kombinaci se šindelováním. Cílem práce je představit implementaci této metody v rámci internetového vyhledávače Egothor 2, popsat vlastnosti a parametry této implementace a nakonec zhodnotit výhody i případná omezení zvoleného řešení.
The master thesis analyses the possibilities of web search engine methods application to the problem of e ective plagiarism detection. It focuses on 1:N plagiarism detection methods under the circumstance that the corpus is a very large dynamically changing set of documents. For the implementation the probabilistic aproximation of the Jaccard similarity measure using hashing combined with shingling was chosen. The aim of the thesis is to present an imlementation of this method within the Egothor 2 web search engine, to describe the features and parameters of the implementation and nally to evaluate the advantages and contingent limitations of the approach.