Konstrukce sémantického slovníku z neanotovaných dat
Unsupervized construction of semantic lexicon
bakalářská práce (OBHÁJENO)
![Náhled dokumentu](/bitstream/handle/20.500.11956/15881/thumbnail.png?sequence=7&isAllowed=y)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/15881Identifikátory
SIS: 46492
Kolekce
- Kvalifikační práce [11264]
Autor
Vedoucí práce
Oponent práce
Spousta, Miroslav
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
24. 6. 2008
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Velmi dobře
V předložené práci jsou zkoumány možnosti konstrukce sémantických slovníků z neoanotovaných dat, tedy z prostého textu. Jsou zde porovnánány výhody a nevýhody několika možných přístupů anotace. Blíže je rozpracováno jedno řešení na základě latentní sémantické analýzy (LSA), které na rozdíl od ostatních metod řeší problém polysemie a synonymie. Dále jsou zde uvedeny podrobné detaily implementace a vyhodnocení. Výsledkem je sada nástrojů pro vytváření, převádění a prohlížení sémantických slovníků v českém jazyce. Použité postupy nejsou závislé na jazyce, pro který jsou implemantované.
In present work are studied possibilities of unsupervized constuction of semantic lexicons. There are compared advantages and disadvantages of several annotation methods. More closely developed is one solution, which is based on latent semantic analysis (LSA). Unlike the others, this method solves the problems of polysemy and synonymy. Below are described details of the algorithm implementanion and evaluation. This thesis provides a set of tools for construction, browsing and conversion of semantic lexicons for czech language. Used methods do not depend on the language.