dc.contributor.advisor | Galamboš, Leo | |
dc.creator | Pekárek, Filip | |
dc.date.accessioned | 2017-04-27T11:15:49Z | |
dc.date.available | 2017-04-27T11:15:49Z | |
dc.date.issued | 2010 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/35916 | |
dc.description.abstract | V předložené práci navrhujeme a testujeme nový postup extrakce faktů z webu. Předložená metoda bere v úvahu, včetně DOM stromu webové stránky, také její vizuální podobu. Základem a první částí je extrakce sémantických částí stránky pomocí algoritmu VIPS. Dalším krokem je ověření a případná úprava získaných dat na základě lokálního kontextu. Finální částí je pomocí získaných a případně upravených faktů klasifikovat analyzované webové stránky do předem definovaných kategorií. Určování tříd probíhá prostřednictvím množiny posuzovatelů implementovaných v konfiguraci definovatelnými instancemi neuronových sítí. | cs_CZ |
dc.description.abstract | In the present work we suggest and test new process of web information extraction. Proposed method consider DOM tree of the web page including it's visual cues. Basic and the rst part is semantic parts extraction of a page using VIPS algorithm. Next step is validation and eventual modication of gained information based on the local context. Final part is classication of analyzing page into predened classes using got facts. Set of critics implemented by congurable instances of neural networks determine the classes. | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | web | cs_CZ |
dc.subject | extrakce | cs_CZ |
dc.subject | fakta | cs_CZ |
dc.subject | vizuální | cs_CZ |
dc.subject | DOM | cs_CZ |
dc.subject | VIPS | cs_CZ |
dc.subject | web | en_US |
dc.subject | extraction | en_US |
dc.subject | facts | en_US |
dc.subject | visual | en_US |
dc.subject | DOM | en_US |
dc.subject | VIPS | en_US |
dc.title | Extrakce faktů z Webu | cs_CZ |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2010 | |
dcterms.dateAccepted | 2010-09-06 | |
dc.description.department | Department of Software Engineering | en_US |
dc.description.department | Katedra softwarového inženýrství | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 64977 | |
dc.title.translated | Web Information Extraction | en_US |
dc.contributor.referee | Kopecký, Michal | |
dc.identifier.aleph | 001295437 | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Software Systems | en_US |
thesis.degree.discipline | Softwarové systémy | cs_CZ |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Katedra softwarového inženýrství | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Department of Software Engineering | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Softwarové systémy | cs_CZ |
uk.degree-discipline.en | Software Systems | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Velmi dobře | cs_CZ |
thesis.grade.en | Very good | en_US |
uk.abstract.cs | V předložené práci navrhujeme a testujeme nový postup extrakce faktů z webu. Předložená metoda bere v úvahu, včetně DOM stromu webové stránky, také její vizuální podobu. Základem a první částí je extrakce sémantických částí stránky pomocí algoritmu VIPS. Dalším krokem je ověření a případná úprava získaných dat na základě lokálního kontextu. Finální částí je pomocí získaných a případně upravených faktů klasifikovat analyzované webové stránky do předem definovaných kategorií. Určování tříd probíhá prostřednictvím množiny posuzovatelů implementovaných v konfiguraci definovatelnými instancemi neuronových sítí. | cs_CZ |
uk.abstract.en | In the present work we suggest and test new process of web information extraction. Proposed method consider DOM tree of the web page including it's visual cues. Basic and the rst part is semantic parts extraction of a page using VIPS algorithm. Next step is validation and eventual modication of gained information based on the local context. Final part is classication of analyzing page into predened classes using got facts. Set of critics implemented by congurable instances of neural networks determine the classes. | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra softwarového inženýrství | cs_CZ |
dc.identifier.lisID | 990012954370106986 | |