O čem píší dnešní noviny
Today's news
bakalářská práce (OBHÁJENO)
![Náhled dokumentu](/bitstream/handle/20.500.11956/38695/thumbnail.png?sequence=8&isAllowed=y)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/38695Identifikátory
SIS: 91582
Kolekce
- Kvalifikační práce [11266]
Autor
Vedoucí práce
Oponent práce
Straňák, Pavel
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Katedra softwaru a výuky informatiky
Datum obhajoby
20. 6. 2011
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Dobře
Klíčová slova (česky)
internet, lingvistika, statistikaKlíčová slova (anglicky)
internet, lingvistics, statisticsProjekt se zabývá návrhem a implementací programu, který na základě frekvenční analýzy textu poskytne rychlý přehled toho, o čem se aktuálně píše v novinách. Program stahuje aktuální novinové články ze serverů internetových novin. Pro každou definovanou rubriku a pro každý článek je schopen vypsat nejfrekventovanější n-tici slov s možností definice nezajímavých (zakázaných) slov a slovníku sousloví. Implementace řeší několik problémů se stahováním článků z~různých, strukturou odlišných serverů, jako je například problém s kódováním češtiny či rozpoznání článku od reklamy. Práce odhaluje, že prostá frekvenční analýza může podávat zajímavé výsledky.
The project deals with the design and implementation of the program based on frequency analysis of the text. The results should provide a quick overview about currently published articles in the newspapers. The program downloads the current articles from newspaper Web sites. For each of defined section and each article is able to list the most frequent n-tuple of words. There is option to define dictionary of uninteresting (banned) words and dictionary of phrases. Implementation solves some problems with downloading articles from various structure different servers, such as problems with encoding and problems with recognition articles from advertisement. The work reveals that simple frequency analysis can bring interesting results.