Systém českých číslovek a jejich automatické rozpoznání v textu
System of Czech numerals and their automatic recognition in texts
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/34193Identifikátory
SIS: 43506
Kolekce
- Kvalifikační práce [11264]
Autor
Vedoucí práce
Oponent práce
Mírovský, Jiří
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
6. 9. 2010
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Velmi dobře
Diplomová práce má dva cíle. Prvním je systematické roztřídění českých číslovek a dalších (i víceslovných) kvantitativních výrazů s ohledem na možné využití pro automatické zpracování češtiny. Základem jsou stávající mluvnice češtiny a vlastní vyhledávání v českých jazykových korpusech. Druhým cílem je pak vytvoření programu na rozpoznávání číslovek v českém textu a jejich určení podle systému navrženého v části 1. Součástí programu je i určení morfologických vlastností číslovek, především jejich základního tvaru, rodu, čísla a pádu. U číslovek vyjadřujících konkrétní číslo, pokud nejsou zapsané číslicemi, pak program umí takový zápis vygenerovat, přičemž je počítáno i s tím, že pravidla pro správné zapsání číslovek nejsou často dodržována, takže nelze spoléhat na kodifikovaný pravopis.
This thesis has two main goals. The first goal is systematic classification of Czech numerals and other quantitative phrases (including multiple-word) with special regard for possible use during automatic recognition of Czech text. The main source of data for theis classification is current Czech grammar and author's research in Czech language corpora The second goal is development of tool for automatic recognition of numerals in Czech text based on the system developed during the first phase of this thesis. This includes determining basic morphological attributes of numerals and their numeric value, where possible and applicable. The tool is even prepared to deal with the fact, that the gramatic rules for numerals are often disregarded.