Extrakce vícejazyčných valenčních rámců ze závislostních korpusů
Extraction of multilingual valency frames from dependency treebanks
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/188302Identifikátory
SIS: 210188
Kolekce
- Kvalifikační práce [11242]
Autor
Vedoucí práce
Oponent práce
Lopatková, Markéta
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
6. 2. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Velmi dobře
Klíčová slova (česky)
závislostní syntax, valence, universal dependenciesKlíčová slova (anglicky)
dependency syntax, valency, universal dependenciesVícejazyčné valenční slovníky poskytují užitečné informace o shodě valenčních rámců (sloves a jejich argumentů) v různých jazycích. Tato práce se zaměřuje na vývoj programu, který automaticky vytvoří vícejazyčný valenční slovník na základě paralelních korpusů anotovaných podle Universal Dependencies. Tato úloha zahrnuje jednojazyčnou extrakci valenčních rámců a jejich propojení napříč jazyky. Jsou analyzovány a implementovány různé metody řešení. Práce zahrnuje jak obecný, jazykově nezávislý přístup, tak dodatečná, jazykově specifická rozšíření, poskytnutá konkrétně pro angličtinu, češtinu a slovenštinu. Metody propojování valenčních rámců zahrnují použití slovního zarovnání, morfologické a syntaktické informace obsažené v anotaci UD nebo podobnosti sloves mezi příbuznými jazyky. Kvalita řešení je zhodnocena několika zave- denými metrikami na ručně anotovaných datech nebo porovnáním s existujícím valenčním slovníkem. 1
Multilingual valency dictionaries provide helpful information about correspon- dence of valency frames (verbs and their arguments) across various languages. This work aims at developing a program that automatically creates a multi- lingual valency dictionary, based on parallel treebanks annotated according to Universal Dependencies. This task includes monolingual extraction of va- lency frames and their cross-lingual linking. Various methods for solving the task are analysed and implemented. The work includes both general, language- independent approach and additional language-specific extensions, provided in particular for English, Czech and Slovak. The methods for linking the valency frames include using word alignment, morphological and syntactic information contained in the UD annotation or similarity of verbs between related languages. The quality of the solution is evaluated by multiple established metrics on man- ually annotated data or by comparison with an existing valency dictionary. 1