Automatické osvojení vzorů s minimální supervizí
Automatické osvojení vzorů s minimální supervizí
diploma thesis (DEFENDED)
![Document thumbnail](/bitstream/handle/20.500.11956/39826/thumbnail.png?sequence=8&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/39826Identifiers
Study Information System: 87819
Collections
- Kvalifikační práce [11266]
Author
Advisor
Referee
Hlaváčová, Jaroslava
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
10. 5. 2012
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
strojové učení, morfologie, fonologie, vzoryKeywords (English)
machine learning, morphology, phonology, inflectional paradigmsDiplomová práce popisuje algoritmus pro automatické osvojení vzorů s minimální supervizí, který vznikl rozšířením systému Paramor (Monson, 2009), fungujícího zcela bez supervize. Systém je modifikován, aby přijímal snadno dostupná data ve formě ohýbaných slov s označenou hranicí morfémů jako dodatečný vstup. Součástí práce je také knihovna pro hierarchické shlukování, která umožňuje kombinaci různých zdrojů informací. Přístup byl testován na češtině, slovinštině, němčině a katalánštině a vykázal zvýšenou F-míru v porovnáni se základním Paramorem.
The thesis presents a semi-supervised morphology learner developed by extending Paramor (Monson, 2009), an unsupervised system, to accept easy to obtain manually provided data in the form of inflections with marked morpheme boundary. In addition, a hierarchical clustering framework allowing combination of multiple sources of information was developed as a part of the thesis. The approach was tested on Czech, Slovene, German and Catalan and has shown increased F-measure in comparison with the Paramor baseline.