Vyhľadávanie relevantných článkov v rozsiahlych kolekciách
Searching relevant articles in extensive collections
Vyhľadávanie relevantných článkov v rozsiahlych kolekciách
bakalářská práce (OBHÁJENO)
Důvod omezené dostupnosti:
Přílohy práce nebo její části jsou nepřístupné v souladu s čl. 18a odst. 7 Studijního a zkušebního řádu Univerzity Karlovy v Praze ve spojení s čl. 9 opatření rektora č. 6/2010.
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/44019Identifikátory
SIS: 96510
Kolekce
- Kvalifikační práce [11218]
Autor
Vedoucí práce
Oponent práce
Bartoš, Tomáš
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Správa počítačových systémů
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
6. 9. 2012
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Slovenština
Známka
Velmi dobře
Klíčová slova (česky)
vyhľadávanie informácií, tf-idf, morfológia, stemmingKlíčová slova (anglicky)
information retrieval, tf-idf, morphology, stemmingVyhledávání textu v článcích se standartně řeší fulltextovým vyhledáváním. Při použití pokročilejších metod je možné dosáhnout výrazně lepších výsledků. Předmětem této práce je vytvořit univerzální knihovnu na prohledávání rozsáhlých kolekcí, která je přizpůsobena pro český jazyk. Využívá nástroje schopné pracovat s morfologií a zohledňovat důležitost slov. Součástí je experiment se slovnými spojeními, které do vyhledávání zapojují kontext. Míra uspěšnosti experimentu je ověřena na rozsáhlé kolekci dat. Vytvořená knihovna je tak unikátním nástrojem na zpracování rozsáhlých kolekcí českého textu, přičemž je připravena na rozšíření o další jazyky a metody.
Searching text in articles is usually implemented with fulltext search. Using more advanced techniques however, it is possible to achieve significantly better results. The subject of this work is to create a universal library for searching extensible collections, specialized in czech language. The library makes use of tools capable of working with morphology while considering importance of words. It also conducts an experiment with word pairs, which adds context into the search process. The success rate of this experiment is tried on an extensible collection of data. Created library is a unique tool for processing extensible collections of czech text, while at the same time it is ready for further extension by new languages and methods.