Automatic inflection in Czech language
Automatické skloňování v češtině
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/184286Identifiers
Study Information System: 253748
Collections
- Kvalifikační práce [11321]
Author
Advisor
Consultant
Straková, Jana
Referee
Vidra, Jonáš
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science with specialisation in Artificial Intelligence
Department
Institute of Formal and Applied Linguistics
Date of defense
7. 9. 2023
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
automatické skloňování|morfologie|generování přirozeného jazyka|čeština|skloňování|flexe|neslovníková slovaKeywords (English)
automatic inflection|morphology|natural language generation|Czech language|inflection|declension|morphological inflection|out-of-vocabulary wordsTato bakalářská práce se zaměřuje na automatické skloňování českých podstatných jmen, zejména slov, která nejsou zahrnuta ve slovníku (tzv. out- of-vocabulary, OOV) - skloňovánípředem neviděných slov. Automaticky jsme extrahovali rozsáhlý dataset vhodný pro trénování a vyhodnocení za OOV podmínek. Dále jsme manuálně vytvořili dataset vyskloňovaných reálných OOV slov - neologismů. Vyvinuli jsme tři různé systémy: retrográdní model založený na algoritmu k-nejbližších sousedů (kNN) a dva modely sequence- to-sequence (seq2seq) založené na LSTM a Transformeru. V porovnání se stávajícím skloňovacím systémem sklonuj.cz a standardními baseline systémy ze SIGMORPHON shared tasks jsme za OOV podmínek s naším seq2seq mo- delem dosáhli nejlepších výsledků. Dále jsme dosáhli state-of-the-art výsledků pro 6 ze 16 vývojových (development) jazyků zahrnutých v datech SIGMOR- PHON 2022 shared task, při vyhodnocení za OOV podmínek (feature over- lap condition) a při trénování na větším datasetu (large data condition). Na datasetu reálných OOV slov byly všechny neuronové modely překonány retrográdním modelem, který dosahuje výsledků srovnatelných s neneuro- novým SIGMORPHON baseline systémem. Představujeme a zveřejňujeme...
This thesis focuses on the task of automatic morphological inflection of Czech nouns, specifically in out-of-vocabulary (OOV) conditions (inflecting previously unseen words). We automatically extracted a large dataset suit- able for training and evaluation in the OOV conditions. We also manually built a real-world OOV dataset of neologisms. We developed three different systems: a retrograde model performing a variation of kNN algorithm, and two sequence-to-sequence (seq2seq) models based on LSTM and Transformer. Compared to an available rule-based inflection system sklonuj.cz and stan- dard SIGMORPHON shared task baselines, our seq2seq model reaches the best results in the standard OOV conditions. Moreover, it achieves state-of- the-art results for 6 out of 16 development languages from SIGMORPHON 2022 shared task data in the OOV evaluation (feature overlap) on large data condition. On the real-world OOV dataset, the retrograde model outper- forms all neural models and is competitive with a non-neural SIGMORPHON baseline. We release the inflection system with seq2seq model as a ready-to- use Python library. It could serve as a complement to the state-of-the-art dictionary-based inflection system MorphoDiTa as a back-off for OOV words, especially once extended to other parts of speech. 1