Graph algorithms in text retrieval
Grafové algoritmy ve vyhledávání textových dokumentů
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/9322Identifikátory
SIS: 46208
Kolekce
- Kvalifikační práce [11244]
Autor
Vedoucí práce
Oponent práce
Galamboš, Leo
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
21. 5. 2007
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Tato diplomová práce zkoumá možnosti využití grafových algoritm ů v oblasti information retrieval (vyhledávání informací). Na zač átku je poskytnut p řehled základních pojm ů z oblasti dokumentografických informa čních systém ů a základě teorie graf . Zbytek práce se pak zabývá prů nikem tě chto dvou oblastí. Mezi př íklady z tohoto prů niku patř í např íklad klastrování a kategorizace dokumentů , i hledání komunit. Nejvíc pozornosti je však soust ředě no na algoritmy hodnotící d ůležitost dokument ů s pomocí využití graf ů. Tyto algoritmy vylepšují nejd ůležitě jší vlastnost informa čních systémů , jejich p řesnost. Práce poskytuje přehled rů zných hodnotících algoritmů založených na grafech a uvádí komentář e k jejich praktič nosti, č asovým a paměť ovým nároků m. V práci je taky detailně popsaná implementace algoritmů na poč ítaní PageRanku stránek navržená pro využití ve vyhledáva či Egothor. Popis také obsahuje výsledky m ěření č asové a pam ěťové nároč nosti a uvádí návrhy na další zlepšení.
This thesis surveys use of graph theory and algorithms in information retrieval. It provides an introduction to graph and information retrieval theories and an overview of the overlap between these disciplines. We show application of the graph theory in clustering, document classification, finding communities etc. The most stress is, however, put on ranking algorithms as they aim to improve the most critical property of the information retrieval systems, their precision. The paper presents different graphbased ranking algorithms, provides comments to their time and memory requirements and to realistic usage of these rankings. It also contains a description and test results of our implementation of algorithms for computing the PageRank distribution designed for the Egothor search engine.