O čem píší dnešní noviny
Today's news
bachelor thesis (DEFENDED)
![Document thumbnail](/bitstream/handle/20.500.11956/38695/thumbnail.png?sequence=8&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/38695Identifiers
Study Information System: 91582
Collections
- Kvalifikační práce [11266]
Author
Advisor
Referee
Straňák, Pavel
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
General Computer Science
Department
Department of Software and Computer Science Education
Date of defense
20. 6. 2011
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Good
Keywords (Czech)
internet, lingvistika, statistikaKeywords (English)
internet, lingvistics, statisticsProjekt se zabývá návrhem a implementací programu, který na základě frekvenční analýzy textu poskytne rychlý přehled toho, o čem se aktuálně píše v novinách. Program stahuje aktuální novinové články ze serverů internetových novin. Pro každou definovanou rubriku a pro každý článek je schopen vypsat nejfrekventovanější n-tici slov s možností definice nezajímavých (zakázaných) slov a slovníku sousloví. Implementace řeší několik problémů se stahováním článků z~různých, strukturou odlišných serverů, jako je například problém s kódováním češtiny či rozpoznání článku od reklamy. Práce odhaluje, že prostá frekvenční analýza může podávat zajímavé výsledky.
The project deals with the design and implementation of the program based on frequency analysis of the text. The results should provide a quick overview about currently published articles in the newspapers. The program downloads the current articles from newspaper Web sites. For each of defined section and each article is able to list the most frequent n-tuple of words. There is option to define dictionary of uninteresting (banned) words and dictionary of phrases. Implementation solves some problems with downloading articles from various structure different servers, such as problems with encoding and problems with recognition articles from advertisement. The work reveals that simple frequency analysis can bring interesting results.