Sumarizace textu
Text summarization
bachelor thesis (DEFENDED)
![Document thumbnail](/bitstream/handle/20.500.11956/18530/thumbnail.png?sequence=7&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/18530Identifiers
Study Information System: 48804
Collections
- Kvalifikační práce [11266]
Author
Advisor
Referee
Schlesinger, Pavel
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Programming
Department
Institute of Formal and Applied Linguistics
Date of defense
9. 9. 2008
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Good
V předložené práci jsou vysvětleny základní principy automatické sumarizace, evaluace a základními pojmy, které se v této oblasti používají. Dále obsahuje popis implementace systém pro automatickou sumarizace a evaluaci textů - CsummaK (Czech Summarization Kit). Součástí tohoto systému jsou základní algoritmy pro tvorbu extrakt a jejich evaluaci, jejichž popis je také součástí této práce. Tento systém byl použit pro tvorbu automatických extraktů z novinových článků. Pro získání referenčních extraktů byl vytvoen další systém, který umožňuje uživatelům on-line vytvářet extrakty novinových článků. V práci je také provedeno měření kvality jednotlivých algoritmů, jejich kombinací s různou hodnotou parametrů společně s diskuzí nad možnostmi praktického nasazení.
The present work explains the basic principles of automatic summarization, evaluation and fundamental concepts, which are used in this eld. It also includes a description of a system for automatic text summarization and evaluation - CSummaK (Czech Summarization Kit). As part of this system are basic algorithms for creating sentence extract summaries (Cenroid, Lead, Position, Random, Relevance Measure, etc.) their evaluation (Precision, Recall, FMeasure, etc.), whose description is also part of this work. This system was used for production of automatic extracts from news articles. Another system was developed for obtaining reference extracts, which allows users to create on-line extracts from news articles. In this work is also evaluated quality of single algorithms, their combination with of di erent parameters, together with discussion of the possibilities of practical application.