Automatické kombinace rysů a šablon rysů
Automatic combinations of feature templates
bakalářská práce (OBHÁJENO)
![Náhled dokumentu](/bitstream/handle/20.500.11956/26828/thumbnail.png?sequence=7&isAllowed=y)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/26828Identifikátory
SIS: 62809
Kolekce
- Kvalifikační práce [11266]
Autor
Vedoucí práce
Oponent práce
Vidová Hladká, Barbora
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
14. 9. 2009
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Velmi dobře
Hľadanie užitočných kombinácií rysov a šablón rysov je netriviálna úloha. Kombinácie sú však hodnotným nástrojom pri zvyšovaní úspešnosti strojového učenia. V tejto práci je navrhovaný postup, ktorý by sám hľadal užitočné kombinácie kategoriálnych rysov a ich šablón. Proces hľadania bol zverený metódam simulovaného žíhania a upravenému genetickému algoritmu. Súčasťou je návrh funkcie, ktorá hodnotí kvalitu kategoriálnej šablóny. Kombinujú sa samostatne šablóny, rysy a tiež obe spoločne. Najlepšie zlepšenia nájdené navrhnutým postupom sú približne 0.1 percentného bodu. Pokusy prebiehali na dvoch datasetoch. Navrhnutý postup je teda potrebné testovať na ďalších dátach, aby sa overila všeobecná použiteľnosť. Pokusy však naznačujú, že by sa mohlo jednať o základ použiteľného algoritmu. Súčasťou práce je jednoduchá aplikácia, ktorá bola navrhnutá a používaná na vykonávanie experimentov.
Searching for useful combinations of features and feature templates is not a simple task. Though combination is valuable tool for increasing accuracy of machine learning. This paper tries to suggest an algorithm for automatic search for useful combinations of categorical features and their templates. An attempt to use simulated annealing and modified genetic algorithm for search process is studied. Construction of evaluation function for assessing categorical feature template is present as well. Features and feature templates are combined separately and together. The best increase of accuracy reached by suggested procedures on datasets used is around 0.1 percentage points. Experiments were made just on two datasets. Thus further testing of algorithm on other datasets is needed to verify its usefulness in general. However experiments indicate that it can be considered as a base of usable algorithm. Simple command-line application is part of work. It was developed and used for experimentation.