Searching classes in the Wikidata ontology
Vyhledávání tříd v ontologii Wikidata
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/197453Identifikátory
SIS: 268694
Kolekce
- Kvalifikační práce [11321]
Autor
Vedoucí práce
Oponent práce
Kopecký, Michal
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Softwarové a datové inženýrství
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
11. 2. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
wikidata|třídy|vyhledávání|ontologie|concepty|vlastnosti|vektoryKlíčová slova (anglicky)
wikidata|classes|search|ontologies|retrieval|reuse|concepts|properties|embeddingsNástroj Dataspecer usnadňuje vytváření a správu abstraktních datových struktur pro reprezentaci a výměnu dat na webu pomocí integrace vstupních ontologií. Nicméně, získat komplexní heterogenní ontologii však zůstává náročným úkolem. Tato studie odvodila on- tologii s 830 tisíci třídami ze znalostního grafu Wikidata a následně analyzovala, navrhla, implementovala a vyhodnotila její integraci do nástroje Dataspecer, s hlavním zaměřením na vyhledávání tříd. Byly vyvinuty metody vyhledávání využívající kombinaci textových modelů, jejich interpolace a strategií řazení v rámci vícekrokového vyhledávacího pro- cesu. Tyto přístupy byly vyhodnoceny na vytvořené testovací kolekci dat a dva optimální přístupy, upřednostňující interpolaci naučených hustých a řídkých vektorů, byly inte- grovány do nástroje. Integrace ontologie byla následně posouzena prostřednictvím dvou uživatelských studií. Výsledky potvrdily rychlost odezvy a relevanci vyhledávání, přičemž nedostatky v kritériích uživatelské přívětivosti naznačily oblasti pro budoucí zlepšení. Vý- sledně, tato práce poskytuje poznatky pro budoucí výzkum vyhledávání tříd a opětovné využití rozsáhlých ontologií, zejména v kontextu Wikidat.
The Dataspecer tool facilitates the creation and management of abstract data struc- tures to represent and exchange data on the Web by leveraging input ontologies. How- ever, acquiring comprehensive heterogeneous ontologies remains challenging. This study derived an ontology of 830 thousand classes from Wikidata and analyzed, designed, imple- mented, and evaluated its integration into the Dataspecer tool, focusing particularly on class search. We devised retrieval methods leveraging a combination of text retrieval mod- els, their interpolation, and re-ranker strategies in a multi-stage retrieval pipeline. The retrieval approaches were evaluated on a developed dataset, and two optimal approaches, favouring interpolation of learned sparse and dense embeddings, were incorporated into the tool. The ontology integration was subsequently assessed through two user studies. The results confirmed the tool's responsiveness and retrieval performance, while deficien- cies in ease-of-use criteria suggested areas for future improvements. Lastly, this work offers insights for future research on class retrieval and the reuse of large-scale ontologies, particularly within the context of Wikidata.