Semantics Detection in Partially Structured Sources
Sémantická analýza částečně stukturovaných zdrojů
diplomová práce (OBHÁJENO)
![Náhled dokumentu](/bitstream/handle/20.500.11956/34006/thumbnail.png?sequence=7&isAllowed=y)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/34006Identifikátory
SIS: 77022
Kolekce
- Kvalifikační práce [11264]
Autor
Vedoucí práce
Oponent práce
Dědek, Jan
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
6. 9. 2010
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Velmi dobře
Obsahem této práce je porovnání možností analýzy strukturovaných zdrojů dat, jako jsou emaily či HTML stránky. Práce se zaměřuje na praktické zhodnocení společných znaků těchto dokumentů, které lze využít k analýze, extrakci dat a katalogizaci pro následné využití. Práce také obsahuje ukázkovou implementaci programu pro katalogizaci dat z emailů a dohledávání změn ve zdrojích dostupných online.
The goal of this thesis is the comparison of methods for analysis of structured data sources, such as emails or HTML pages. The work focuses on practical assessment of common characteristics of these documents, which can be used for analysis, data extraction and cataloging for subsequent use. The work also includes a sample implementation of a program for cataloging data from emails and tracing changes in online sources.