dc.contributor.advisor | Holan, Tomáš | |
dc.creator | Jankovský, Petr | |
dc.date.accessioned | 2017-04-27T22:26:04Z | |
dc.date.available | 2017-04-27T22:26:04Z | |
dc.date.issued | 2011 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/38695 | |
dc.description.abstract | Projekt se zabývá návrhem a implementací programu, který na základě frekvenční analýzy textu poskytne rychlý přehled toho, o čem se aktuálně píše v novinách. Program stahuje aktuální novinové články ze serverů internetových novin. Pro každou definovanou rubriku a pro každý článek je schopen vypsat nejfrekventovanější n-tici slov s možností definice nezajímavých (zakázaných) slov a slovníku sousloví. Implementace řeší několik problémů se stahováním článků z~různých, strukturou odlišných serverů, jako je například problém s kódováním češtiny či rozpoznání článku od reklamy. Práce odhaluje, že prostá frekvenční analýza může podávat zajímavé výsledky. | cs_CZ |
dc.description.abstract | The project deals with the design and implementation of the program based on frequency analysis of the text. The results should provide a quick overview about currently published articles in the newspapers. The program downloads the current articles from newspaper Web sites. For each of defined section and each article is able to list the most frequent n-tuple of words. There is option to define dictionary of uninteresting (banned) words and dictionary of phrases. Implementation solves some problems with downloading articles from various structure different servers, such as problems with encoding and problems with recognition articles from advertisement. The work reveals that simple frequency analysis can bring interesting results. | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | internet | cs_CZ |
dc.subject | lingvistika | cs_CZ |
dc.subject | statistika | cs_CZ |
dc.subject | internet | en_US |
dc.subject | lingvistics | en_US |
dc.subject | statistics | en_US |
dc.title | O čem píší dnešní noviny | cs_CZ |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2011 | |
dcterms.dateAccepted | 2011-06-20 | |
dc.description.department | Department of Software and Computer Science Education | en_US |
dc.description.department | Katedra softwaru a výuky informatiky | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 91582 | |
dc.title.translated | Today's news | en_US |
dc.contributor.referee | Straňák, Pavel | |
dc.identifier.aleph | 001383790 | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | General Computer Science | en_US |
thesis.degree.discipline | Obecná informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Katedra softwaru a výuky informatiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Department of Software and Computer Science Education | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Obecná informatika | cs_CZ |
uk.degree-discipline.en | General Computer Science | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Dobře | cs_CZ |
thesis.grade.en | Good | en_US |
uk.abstract.cs | Projekt se zabývá návrhem a implementací programu, který na základě frekvenční analýzy textu poskytne rychlý přehled toho, o čem se aktuálně píše v novinách. Program stahuje aktuální novinové články ze serverů internetových novin. Pro každou definovanou rubriku a pro každý článek je schopen vypsat nejfrekventovanější n-tici slov s možností definice nezajímavých (zakázaných) slov a slovníku sousloví. Implementace řeší několik problémů se stahováním článků z~různých, strukturou odlišných serverů, jako je například problém s kódováním češtiny či rozpoznání článku od reklamy. Práce odhaluje, že prostá frekvenční analýza může podávat zajímavé výsledky. | cs_CZ |
uk.abstract.en | The project deals with the design and implementation of the program based on frequency analysis of the text. The results should provide a quick overview about currently published articles in the newspapers. The program downloads the current articles from newspaper Web sites. For each of defined section and each article is able to list the most frequent n-tuple of words. There is option to define dictionary of uninteresting (banned) words and dictionary of phrases. Implementation solves some problems with downloading articles from various structure different servers, such as problems with encoding and problems with recognition articles from advertisement. The work reveals that simple frequency analysis can bring interesting results. | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra softwaru a výuky informatiky | cs_CZ |
dc.identifier.lisID | 990013837900106986 | |