Extrakce vícejazyčných valenčních rámců ze závislostních korpusů
Extraction of multilingual valency frames from dependency treebanks
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/188302Identifiers
Study Information System: 210188
Collections
- Kvalifikační práce [11244]
Author
Advisor
Referee
Lopatková, Markéta
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
6. 2. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Very good
Keywords (Czech)
závislostní syntax, valence, universal dependenciesKeywords (English)
dependency syntax, valency, universal dependenciesVícejazyčné valenční slovníky poskytují užitečné informace o shodě valenčních rámců (sloves a jejich argumentů) v různých jazycích. Tato práce se zaměřuje na vývoj programu, který automaticky vytvoří vícejazyčný valenční slovník na základě paralelních korpusů anotovaných podle Universal Dependencies. Tato úloha zahrnuje jednojazyčnou extrakci valenčních rámců a jejich propojení napříč jazyky. Jsou analyzovány a implementovány různé metody řešení. Práce zahrnuje jak obecný, jazykově nezávislý přístup, tak dodatečná, jazykově specifická rozšíření, poskytnutá konkrétně pro angličtinu, češtinu a slovenštinu. Metody propojování valenčních rámců zahrnují použití slovního zarovnání, morfologické a syntaktické informace obsažené v anotaci UD nebo podobnosti sloves mezi příbuznými jazyky. Kvalita řešení je zhodnocena několika zave- denými metrikami na ručně anotovaných datech nebo porovnáním s existujícím valenčním slovníkem. 1
Multilingual valency dictionaries provide helpful information about correspon- dence of valency frames (verbs and their arguments) across various languages. This work aims at developing a program that automatically creates a multi- lingual valency dictionary, based on parallel treebanks annotated according to Universal Dependencies. This task includes monolingual extraction of va- lency frames and their cross-lingual linking. Various methods for solving the task are analysed and implemented. The work includes both general, language- independent approach and additional language-specific extensions, provided in particular for English, Czech and Slovak. The methods for linking the valency frames include using word alignment, morphological and syntactic information contained in the UD annotation or similarity of verbs between related languages. The quality of the solution is evaluated by multiple established metrics on man- ually annotated data or by comparison with an existing valency dictionary. 1