Morfologická disambiguace češtiny pomocí Markovkých modelů
Disambiguation of Czech Morphology Using Markov Models
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/6427Identifikátory
SIS: 43438
Kolekce
- Kvalifikační práce [11242]
Autor
Vedoucí práce
Oponent práce
Vidová Hladká, Barbora
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Programování
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
26. 6. 2006
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Ve své bakalářské práci jsem se rozhodla věnovat morfologické disambiguaci textu. Tato úloha má své opodstatnění především v oblasti překladu přirozených jazyků, kde slouží k předzpracování textu určeného k přeložení tak, aby z něj byly odstraněny nejednoznačnosti ve slovních druzích a dalších morfologických kategoriích, které by v dalších fázích překladu působily problémy anebo neúnosně zvyšovaly jeho časovou náročnost. Zvolila jsem statistický přístup k tomuto problému, který je v porovnání s dalšími možnými metodami rychlejší, univerzálnější a je schopen vždy jednoznačně určit kategorii slova. Svoji aplikaci KDTagger, kterou jsem vytvořila v rámci této bakalářské práce, jsem založila na teorii skrytých Markovských modelů. Mým cílem bylo vytvořit takový program, který by byl univerzální co do operačního systému i způsobu ovládání a umožňoval zároveň nastavení všech důležitých lingvistických parametrů pro odborníky i komfortní použití pro laiky. Součástí mé práce byla rozsáhlá testování vytvořené aplikace, které jsem prováděla na českých novinových textech z Pražského závislostního korpusu verze 2.0. Aplikace je ovšem bez sebemenší změny použitelná i na libovolný jiný přirozený jazyk. Powered by TCPDF (www.tcpdf.org)
In my bachelor thesis I decided to focus on disambiguation of Czech morphology. This task is important in particular in the area of natural language translation, where it takes part in preprocessing the text intended for translation in order to eliminate ambiguity in part of speech and other morphological cathegories. This ambiguity would cause problems in subsequent phases of translation or unacceptable growth of translation's time demands. I chose statistical approach to this problem, which is in comparison with other possible methods faster, more universal and able to select word cathegory in all cases. I founded my aplication KDTagger, which I created within the framework of this bachelor thesis, on the theory of Hidden Markov Models. My aim was to create such a program, which would be universal in operating system and the way of use. KDTagger allows the experts to adjust every important linguistic parameter while preserving comfort use for begginers. My work also includes extensive testings of the program KDTagger, which I performed on the Czech newspaper texts from Prague Dependency Treebank version 2.0. The program can be however applied on arbitrary natural language without not even the smallest change. Powered by TCPDF (www.tcpdf.org)