Rozpoznávání číslovek v českém textu
Recognition of numerals in Czech texts
bachelor thesis (DEFENDED)
![Document thumbnail](/bitstream/handle/20.500.11956/10402/thumbnail.png?sequence=7&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/10402Identifiers
Study Information System: 45526
Collections
- Kvalifikační práce [11264]
Author
Advisor
Referee
Štěpánek, Jan
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Programming
Department
Institute of Formal and Applied Linguistics
Date of defense
25. 6. 2007
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Very good
Účelem práce bylo sestrojit nástroj, který by byl schopen rozpoznávat základní číslovky v česky psaném textu, a to jak číslovky zapsané číslicemi, tak složené číslovky zapsané slovy. Důraz je kladen hlavně na rozpoznávání číslovek zapsaných pomocí slov a jejich korektní spojování do složených číslovek. Při rozpoznávání slovy zapsaných číslovek a jejich spojování jsou rozpoznávány a brány v potaz i hovorové, nespisovné či jinak nesprávné, ale přesto používané tvary či spojení. Výstupem je pak pro každou číslovku její hodnota zapsaná pomocí číslic a množina možných morfologických značek. Program sám provádí lexikální i gramatickou analýzu na základě souboru tvarů slov a pravidel, která jsou mu poskytnuta.
Purpose of this work is to create a tool capable of recognizing cardinal numerals in Czech text, both written with the use of digits and written with the use of words. Emphasis is placed on recognizing numerals written with words and their correct combining. Not only grammatically correct, but also other expressions and their combinations, that are quite frequent in the use of the language, were taken into account. Output is a numeric value of recognized numeral, and a set of possible morphological tags for each numeral. The program performs its own lexical and grammatical analysis based on a set of given numeral forms and rules.