Semantics Detection in Partially Structured Sources
Sémantická analýza částečně stukturovaných zdrojů
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/34006Identifiers
Study Information System: 77022
Collections
- Kvalifikační práce [11266]
Author
Advisor
Referee
Dědek, Jan
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software Engineering
Date of defense
6. 9. 2010
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Very good
Obsahem této práce je porovnání možností analýzy strukturovaných zdrojů dat, jako jsou emaily či HTML stránky. Práce se zaměřuje na praktické zhodnocení společných znaků těchto dokumentů, které lze využít k analýze, extrakci dat a katalogizaci pro následné využití. Práce také obsahuje ukázkovou implementaci programu pro katalogizaci dat z emailů a dohledávání změn ve zdrojích dostupných online.
The goal of this thesis is the comparison of methods for analysis of structured data sources, such as emails or HTML pages. The work focuses on practical assessment of common characteristics of these documents, which can be used for analysis, data extraction and cataloging for subsequent use. The work also includes a sample implementation of a program for cataloging data from emails and tracing changes in online sources.