Rozšířený HMM tagger a jeho aplikace na morfologické značkování češtiny
Enhanced HMM Tagger and Its Application for Czech Morphological Tagging
bakalářská práce (OBHÁJENO)
![Náhled dokumentu](/bitstream/handle/20.500.11956/12627/thumbnail.png?sequence=7&isAllowed=y)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/12627Identifikátory
SIS: 45094
Kolekce
- Kvalifikační práce [11266]
Autor
Vedoucí práce
Oponent práce
Vidová Hladká, Barbora
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Programování
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
11. 9. 2007
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
V předložené práci studuji možnosti morfologického značkování češtiny při použití statistického značkovače založeného na skrytých Markovových modelech (HMM taggeru). Zejména pak ověřuji vliv: různě velkých trénovacích dat, délky tagovací historie, nastavení parametru 'n' ve variantě výběru n nejlepších průchodů (varianta n-best) a omezení sady tagů v historii značek na úspěšnost značkovače. Text je doplněn řadou tabulek s výsledky běhu značkovače včetně porovnání s předchozími výsledky jiných značkovačů. V příloze se na kompaktním disku nachází testovací data a program, jehož výsledky jsou zde prezentovány.
In the present work I study possibilities of Czech morphological tagging by using statistical tagger based on hidden Markov models (HMM tagger). I especially intend to verify an influence of various size of training data, length of tagging history, setting n-parameter in n-best variant and reduction of tag set in history of tags to the successfulness of tagging. Text is completed with tables with results of tagger including comparison with previous results of other taggers. There is also a supplementary CD with test data and the program, which results are presented here.