dc.contributor.advisor | Rosa, Rudolf | |
dc.creator | Sourada, Tomáš | |
dc.date.accessioned | 2023-11-07T02:22:25Z | |
dc.date.available | 2023-11-07T02:22:25Z | |
dc.date.issued | 2023 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/184286 | |
dc.description.abstract | This thesis focuses on the task of automatic morphological inflection of Czech nouns, specifically in out-of-vocabulary (OOV) conditions (inflecting previously unseen words). We automatically extracted a large dataset suit- able for training and evaluation in the OOV conditions. We also manually built a real-world OOV dataset of neologisms. We developed three different systems: a retrograde model performing a variation of kNN algorithm, and two sequence-to-sequence (seq2seq) models based on LSTM and Transformer. Compared to an available rule-based inflection system sklonuj.cz and stan- dard SIGMORPHON shared task baselines, our seq2seq model reaches the best results in the standard OOV conditions. Moreover, it achieves state-of- the-art results for 6 out of 16 development languages from SIGMORPHON 2022 shared task data in the OOV evaluation (feature overlap) on large data condition. On the real-world OOV dataset, the retrograde model outper- forms all neural models and is competitive with a non-neural SIGMORPHON baseline. We release the inflection system with seq2seq model as a ready-to- use Python library. It could serve as a complement to the state-of-the-art dictionary-based inflection system MorphoDiTa as a back-off for OOV words, especially once extended to other parts of speech. 1 | en_US |
dc.description.abstract | Tato bakalářská práce se zaměřuje na automatické skloňování českých podstatných jmen, zejména slov, která nejsou zahrnuta ve slovníku (tzv. out- of-vocabulary, OOV) - skloňovánípředem neviděných slov. Automaticky jsme extrahovali rozsáhlý dataset vhodný pro trénování a vyhodnocení za OOV podmínek. Dále jsme manuálně vytvořili dataset vyskloňovaných reálných OOV slov - neologismů. Vyvinuli jsme tři různé systémy: retrográdní model založený na algoritmu k-nejbližších sousedů (kNN) a dva modely sequence- to-sequence (seq2seq) založené na LSTM a Transformeru. V porovnání se stávajícím skloňovacím systémem sklonuj.cz a standardními baseline systémy ze SIGMORPHON shared tasks jsme za OOV podmínek s naším seq2seq mo- delem dosáhli nejlepších výsledků. Dále jsme dosáhli state-of-the-art výsledků pro 6 ze 16 vývojových (development) jazyků zahrnutých v datech SIGMOR- PHON 2022 shared task, při vyhodnocení za OOV podmínek (feature over- lap condition) a při trénování na větším datasetu (large data condition). Na datasetu reálných OOV slov byly všechny neuronové modely překonány retrográdním modelem, který dosahuje výsledků srovnatelných s neneuro- novým SIGMORPHON baseline systémem. Představujeme a zveřejňujeme... | cs_CZ |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | automatické skloňování|morfologie|generování přirozeného jazyka|čeština|skloňování|flexe|neslovníková slova | cs_CZ |
dc.subject | automatic inflection|morphology|natural language generation|Czech language|inflection|declension|morphological inflection|out-of-vocabulary words | en_US |
dc.title | Automatic inflection in Czech language | en_US |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2023 | |
dcterms.dateAccepted | 2023-09-07 | |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 253748 | |
dc.title.translated | Automatické skloňování v češtině | cs_CZ |
dc.contributor.referee | Vidra, Jonáš | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | Informatika se specializací Umělá inteligence | cs_CZ |
thesis.degree.discipline | Computer Science with specialisation in Artificial Intelligence | en_US |
thesis.degree.program | Informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Informatika se specializací Umělá inteligence | cs_CZ |
uk.degree-discipline.en | Computer Science with specialisation in Artificial Intelligence | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Tato bakalářská práce se zaměřuje na automatické skloňování českých podstatných jmen, zejména slov, která nejsou zahrnuta ve slovníku (tzv. out- of-vocabulary, OOV) - skloňovánípředem neviděných slov. Automaticky jsme extrahovali rozsáhlý dataset vhodný pro trénování a vyhodnocení za OOV podmínek. Dále jsme manuálně vytvořili dataset vyskloňovaných reálných OOV slov - neologismů. Vyvinuli jsme tři různé systémy: retrográdní model založený na algoritmu k-nejbližších sousedů (kNN) a dva modely sequence- to-sequence (seq2seq) založené na LSTM a Transformeru. V porovnání se stávajícím skloňovacím systémem sklonuj.cz a standardními baseline systémy ze SIGMORPHON shared tasks jsme za OOV podmínek s naším seq2seq mo- delem dosáhli nejlepších výsledků. Dále jsme dosáhli state-of-the-art výsledků pro 6 ze 16 vývojových (development) jazyků zahrnutých v datech SIGMOR- PHON 2022 shared task, při vyhodnocení za OOV podmínek (feature over- lap condition) a při trénování na větším datasetu (large data condition). Na datasetu reálných OOV slov byly všechny neuronové modely překonány retrográdním modelem, který dosahuje výsledků srovnatelných s neneuro- novým SIGMORPHON baseline systémem. Představujeme a zveřejňujeme... | cs_CZ |
uk.abstract.en | This thesis focuses on the task of automatic morphological inflection of Czech nouns, specifically in out-of-vocabulary (OOV) conditions (inflecting previously unseen words). We automatically extracted a large dataset suit- able for training and evaluation in the OOV conditions. We also manually built a real-world OOV dataset of neologisms. We developed three different systems: a retrograde model performing a variation of kNN algorithm, and two sequence-to-sequence (seq2seq) models based on LSTM and Transformer. Compared to an available rule-based inflection system sklonuj.cz and stan- dard SIGMORPHON shared task baselines, our seq2seq model reaches the best results in the standard OOV conditions. Moreover, it achieves state-of- the-art results for 6 out of 16 development languages from SIGMORPHON 2022 shared task data in the OOV evaluation (feature overlap) on large data condition. On the real-world OOV dataset, the retrograde model outper- forms all neural models and is competitive with a non-neural SIGMORPHON baseline. We release the inflection system with seq2seq model as a ready-to- use Python library. It could serve as a complement to the state-of-the-art dictionary-based inflection system MorphoDiTa as a back-off for OOV words, especially once extended to other parts of speech. 1 | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | 1 | |
dc.contributor.consultant | Straková, Jana | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |