Extraction and representation of unified metadata from files and file systems based on data formats
Extrakce a reprezentace jednotných metadat ze souborů a souborových systémů na základě datových formátů
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/181635Identifikátory
SIS: 245962
Kolekce
- Kvalifikační práce [11241]
Autor
Vedoucí práce
Oponent práce
Svoboda, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Softwarové a datové inženýrství
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
6. 6. 2023
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
RDF|formáty souborů|analýza formátu souborů|média|metadata|extrakce informacíKlíčová slova (anglicky)
RDF|file formats|file format analysis|media|metadata|information extractionTato práce dokumentuje proces analýzy, návrhu a implementace softwarového nástroje schopného přijímat soubory v různých formátech, podrobně je zkoumat a tvořit graf v Resource Description Framework reprezentující jejich metadata. Takový popis může být užitečný jakékoliv osobě nebo systému s porozuměním RDF, aby poskytl přehled o velkých kolekcích souborů nebo archivů, umožnil vyhledávání pomocí jazyka SPARQL na základě konkrétních doménových kritérií nebo identifikoval společné či odlišné entity v různých datasetech. Výsledky této práce může využít jakýkoliv jednotlivec nebo orga- nizace se záměrem zpracovávat soubory sémantickým a rozšiřitelným způsobem, nabíd- nout uživatelům webů pro poskytování souborů širokou škálu možností při vyhledávání, poskytnout analytikům způsob, jak pracovat s metadaty v kompaktní a podrobné podobě, oddělené od původního zdroje, nebo zlepšit systémy pro zpracovávání souborů lepší kon- trolou nad tím, jaký druh dat je přijímán a zpracováván. 1
This thesis documents the process of analyzing, designing, and implementing a soft- ware tool able to accept files in various formats, inspect them in depth, and produce a graph in the Resource Description Framework that represents their metadata. Such a description may be useful to any person or system capable of understanding RDF, to provide insight into large sets of files or archives, to allow searching using SPARQL based on concrete domain criteria, or to identify common or distinct entities across different datasets. The results of this thesis may be used by any individual or organization wish- ing to process files in a semantic and extensible way, to offer users of file hosting sites a wide range of search options, to provide analysts a way to work with metadata in a compact and detailed form, detached from the original source, or to improve systems for processing files with greater control over what kind of data is accepted and processed. 1