dc.contributor.advisor | Hlaváčová, Jaroslava | |
dc.creator | Tattermusch, Jan | |
dc.date.accessioned | 2017-04-27T03:26:03Z | |
dc.date.available | 2017-04-27T03:26:03Z | |
dc.date.issued | 2010 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/33994 | |
dc.description.abstract | Tato práce implementuje a popisuje komponentu pro fulltextové vyhledávání s podporou eského doplování diakritiky a stemmingu. Doplňovač diakritiky pracuje na statistickém principu a zohleduje kontext. Práce obsahuje pět stemmerů připravených k okamžitému použití (dva algoritmické a tři hybridní), jejichž vlastnosti jsou diskutovány. Komponenta je vystavěna nad knihovnou Apache Lucene a poskytuje jednoduché rozhraní pro dotazování a přidávání, mazání a změnu indexovaných dokumentů. Ukládané dokumenty se skládají z pojmenovaných polí s de novanými datovými typy. Komponenta umožňuje de novat krom běžných fulltextových dotaz také netriviální dotazy s dopňujícími omezeními a ovlivnit vlastní zpasob výpočtu skóre výsledků dotazu. Výkon komponenty je dostatečný pro středně vytížené aplikace a orientační výkon je dle měření 50 dotazů za vteřinu nad úložištěm obsahujícím 2,7 milionu dokumenta. Přínos doplňování diakritiky a stemmingu pro kvalitu fulltextového vyhledávání byl měřen pomocí MAP a byl vyhodnocen jako významný. | cs_CZ |
dc.description.abstract | This work describes and implements a component for fulltext searching with czech diacritics restoration and stemming support. Diacritics restoration is based on statistical principles and is context dependent. This work presents ve stemmers ready for immediate use (two algorithmic stemmers and three hybrid stemmers) and discusses their properties. The component is implemented using Apache Lucene library and provides a simple interface for querying and insertions, deletions and updates of documents indexed. Stored documents consist of named elds with prede ned data types. Besides regular fulltext queries, the component also supports non-trivial queries with additional constraints and provides a way to customize the way query result score is computed. Component's performance is suffcient for medium-load applications and is approximately 50 queries per second with a repository that contains 2.7 million documents. Contribution of stemming and diacritics restoration to the quality of fulltext searching was measured using MAP and is signi cant. | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.title | Vyhledávání v českých strukturovaných datech pomocí stemmingu | cs_CZ |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2010 | |
dcterms.dateAccepted | 2010-09-06 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 79173 | |
dc.title.translated | Searching Czech Structured Data using Stemming | en_US |
dc.contributor.referee | Kuboň, Vladislav | |
dc.identifier.aleph | 001384360 | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Software Systems | en_US |
thesis.degree.discipline | Softwarové systémy | cs_CZ |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Softwarové systémy | cs_CZ |
uk.degree-discipline.en | Software Systems | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Tato práce implementuje a popisuje komponentu pro fulltextové vyhledávání s podporou eského doplování diakritiky a stemmingu. Doplňovač diakritiky pracuje na statistickém principu a zohleduje kontext. Práce obsahuje pět stemmerů připravených k okamžitému použití (dva algoritmické a tři hybridní), jejichž vlastnosti jsou diskutovány. Komponenta je vystavěna nad knihovnou Apache Lucene a poskytuje jednoduché rozhraní pro dotazování a přidávání, mazání a změnu indexovaných dokumentů. Ukládané dokumenty se skládají z pojmenovaných polí s de novanými datovými typy. Komponenta umožňuje de novat krom běžných fulltextových dotaz také netriviální dotazy s dopňujícími omezeními a ovlivnit vlastní zpasob výpočtu skóre výsledků dotazu. Výkon komponenty je dostatečný pro středně vytížené aplikace a orientační výkon je dle měření 50 dotazů za vteřinu nad úložištěm obsahujícím 2,7 milionu dokumenta. Přínos doplňování diakritiky a stemmingu pro kvalitu fulltextového vyhledávání byl měřen pomocí MAP a byl vyhodnocen jako významný. | cs_CZ |
uk.abstract.en | This work describes and implements a component for fulltext searching with czech diacritics restoration and stemming support. Diacritics restoration is based on statistical principles and is context dependent. This work presents ve stemmers ready for immediate use (two algorithmic stemmers and three hybrid stemmers) and discusses their properties. The component is implemented using Apache Lucene library and provides a simple interface for querying and insertions, deletions and updates of documents indexed. Stored documents consist of named elds with prede ned data types. Besides regular fulltext queries, the component also supports non-trivial queries with additional constraints and provides a way to customize the way query result score is computed. Component's performance is suffcient for medium-load applications and is approximately 50 queries per second with a repository that contains 2.7 million documents. Contribution of stemming and diacritics restoration to the quality of fulltext searching was measured using MAP and is signi cant. | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
dc.identifier.lisID | 990013843600106986 | |