Predikce vývoje ceny ropy na základě textových zpravodajských informací
Crude Oil Price Forecast based on Text News
bakalářská práce (OBHÁJENO)
![Náhled dokumentu](/bitstream/handle/20.500.11956/45577/thumbnail.png?sequence=8&isAllowed=y)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/45577Identifikátory
SIS: 96748
Kolekce
- Kvalifikační práce [11266]
Autor
Vedoucí práce
Oponent práce
Žabokrtský, Zdeněk
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Programování
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
18. 6. 2012
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
předpověď, cena ropy, strojové učení, klasifikace textů, maxentKlíčová slova (anglicky)
forecast, crude oil price, machine learning, text classification, maxentPro předpověď vývoje ceny ropy existuje celá řada algoritmů. V této práci přinášíme nový pohled na tuto problematiku a představujeme náš projekt COPF. Pomocí klasifikátoru maximální entropie se snažíme předpovídat z textových informací dostupných na Internetu. Opíráme se o znalosti expertů v daném oboru. V rámci práce jsme testovali a vylepšovali úspěšnost systému COPF. Zjistili jsme, že tento přístup má mnoho problémů, které se ale dají řešit. V současném stavu naše úspěšnost sice překonala baseline, ovšem pro další vývoj je nutné získat více zdrojů dat. Naše metoda nebyla nikdy považována za nosnou, spíše může sloužit k vylepšení úspěšnosti předpovědí numerických algoritmů a v každém případě je zajímavá z hlediska možnosti dolování informací z textu.
For crude oil price forecast, there is a whole range of algorithms. In this thesis we bring out a new perspective on this issue and introduce our project COPF. Using a maximum entropy classifier, we try to predict the change in crude oil price from text information available on the Internet. We are taking advantage of the knowledge of experts in the field. As a part of the thesis, we tested and improved COPF precision. We have found out that this approach poses a lot of interesting problems. In the current state, the precision of our prediction surpassed the baseline but for further development, it is necessary to obtain more data sources. Our algorithm has never been regarded as a self-standing method but it may nicely complement numerical algorithms.