Optimal choice of scenario tree using Reinforcement learning
Optimální volba scénářového stromu za použití zpětnovazebního učení
diplomová práce (OBHÁJENO)
![Náhled dokumentu](/bitstream/handle/20.500.11956/182211/thumbnail.png?sequence=8&isAllowed=y)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/182211Identifikátory
SIS: 234642
Kolekce
- Kvalifikační práce [11264]
Autor
Vedoucí práce
Konzultant práce
Kozmík, Karel
Oponent práce
Branda, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Pravděpodobnost, matematická statistika a ekonometrie
Katedra / ústav / klinika
Katedra pravděpodobnosti a matematické statistiky
Datum obhajoby
15. 6. 2023
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Stochastická optimalizace|Vícestupňová úloha|Zpětnovazební učeníKlíčová slova (anglicky)
Stochastic optimization|Multistage problem|Reinforcement learningTato práce se zabývá vícestupňovými stochastickými programy a zkoumá závislost hodnoty účelové funkce na struktuře vybraného scénářového stromu. Scénářové stromy jsou tvořeny moment matching metodou, je formulován mean-CVaR model a dále na historických finančních datech je natrénován agent pomocí hlubokého zpětnovazebního učení za účelem volby co nejlepší možné struktury scénářového stromu pro mean-CVaR model. Pro tento účel jsme naimplementovali vlastní prostředí pro trénování zpětnovazeb- ního agenta. Dále jsme navrhli přidání penalizace do odměny agenta za účelem penalizace stromů s moc složitou strukturou. Zpětnovazebního agenta jsme potom porovnali s agen- tem, který volí strukturu stromu náhodně a ukázali jsme, že zpětnovazební agent dosa- huje lepších výsledků. Dále jsme analyzovali strukturu stromů zvolených zpětnovazebním agentem. 1
This thesis deals with multistage stochastic programs and explores the dependence of the obtained objective value on the chosen structure of the scenario tree. In particular, the scenario trees are built using the moment matching method, a multistage mean-CVaR model is formulated and a reinforcement learning agent is trained on a set of historical financial data to choose the best scenario tree structure for the mean-CVaR model. For this purpose, we implemented a custom reinforcement learning environment. Further an inclusion of a penalty term in the reward obtained by the agent is proposed to avoid scenario trees that are too complex. The reinforcement learning agent is then evaluated against an agent that chooses the scenario tree structure at random and outperforms the random agent. Further the structure of scenario trees chosen by the reinforcement learning agent is analyzed. 1