dc.contributor.advisor | Bojar, Ondřej | |
dc.creator | Bílek, Karel | |
dc.date.accessioned | 2017-05-08T16:44:23Z | |
dc.date.available | 2017-05-08T16:44:23Z | |
dc.date.issued | 2011 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/50239 | |
dc.description.abstract | V této práci se snažím nalézt definici zpravodajského tématu tak, aby byla detekce těchto témat v textu implementovatelná a kvalita této detekce měřitelná. Popisuji možné metody - "prosté" počítání slov, případně se zavedením stopslov; TF-IDF; dále popisuji problém textové klasifikace, mírně se dotknu text clusteringu. Dále popisuji přístupy, nazvané latent semantic in- dexing a latent Dirichlet allocation. Také popisuji experimenty s "prostým" počítáním slov, TF-IDF a textovou klasifikací na databázi článků z něko- lika elektronických zdrojů; vznik této databáze v práci popisuji rovněž. Ke způsobu řešení pomocí textové klasifikace uvádím metriku pomocí měření přesnosti a úplnosti; podle těchto metrik měřím několik variant textové klasi- fikace. 1 | cs_CZ |
dc.description.abstract | In this thesis, I try to find a definition of a news topic to make topic detec- tion implementable and its quality measurable. I describe various methods - a "simple" words counting, optionally with stopwords. I also describe TF-IDF and the text categorization problem. I touch the subject of text clustering. Then I briefly describe approaches called latent semantic indexing and la- tent Dirichlet allocation. The thesis includes my experiments with "simple" words counting, TF-IDF and text categorization on database of articles from several online news websites; I also describe the creation of this database. Precision and recall are used as a metric to text categorization approach. 1 | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | Zpravodajství | cs_CZ |
dc.subject | články | cs_CZ |
dc.subject | témata | cs_CZ |
dc.subject | klíčová slova | cs_CZ |
dc.subject | News | en_US |
dc.subject | articles | en_US |
dc.subject | topics | en_US |
dc.subject | keywords | en_US |
dc.title | Sledování témat v elektronickém zpravodajství | cs_CZ |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2011 | |
dcterms.dateAccepted | 2011-09-07 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 62909 | |
dc.title.translated | News Topics Tracking | en_US |
dc.contributor.referee | Holan, Tomáš | |
dc.identifier.aleph | 001384639 | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | General Computer Science | en_US |
thesis.degree.discipline | Obecná informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Obecná informatika | cs_CZ |
uk.degree-discipline.en | General Computer Science | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | V této práci se snažím nalézt definici zpravodajského tématu tak, aby byla detekce těchto témat v textu implementovatelná a kvalita této detekce měřitelná. Popisuji možné metody - "prosté" počítání slov, případně se zavedením stopslov; TF-IDF; dále popisuji problém textové klasifikace, mírně se dotknu text clusteringu. Dále popisuji přístupy, nazvané latent semantic in- dexing a latent Dirichlet allocation. Také popisuji experimenty s "prostým" počítáním slov, TF-IDF a textovou klasifikací na databázi článků z něko- lika elektronických zdrojů; vznik této databáze v práci popisuji rovněž. Ke způsobu řešení pomocí textové klasifikace uvádím metriku pomocí měření přesnosti a úplnosti; podle těchto metrik měřím několik variant textové klasi- fikace. 1 | cs_CZ |
uk.abstract.en | In this thesis, I try to find a definition of a news topic to make topic detec- tion implementable and its quality measurable. I describe various methods - a "simple" words counting, optionally with stopwords. I also describe TF-IDF and the text categorization problem. I touch the subject of text clustering. Then I briefly describe approaches called latent semantic indexing and la- tent Dirichlet allocation. The thesis includes my experiments with "simple" words counting, TF-IDF and text categorization on database of articles from several online news websites; I also describe the creation of this database. Precision and recall are used as a metric to text categorization approach. 1 | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
dc.identifier.lisID | 990013846390106986 | |