Iterative Methods for First-Order Nash Equilibria in Zero-Sum Games
Iterativní metody pro Nashova ekvilibria prvního řádu v hrách s nulovým součtem
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/192814Identifikátory
SIS: 271219
Kolekce
- Kvalifikační práce [11326]
Autor
Vedoucí práce
Konzultant práce
Černý, Martin
Oponent práce
Hartman, David
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Katedra aplikované matematiky
Datum obhajoby
5. 9. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
teorie her|Nashovo ekvilibrium|iterativní metodyKlíčová slova (anglicky)
game theory|Nash equlibrium|iterative methodsMnoho úloh ve strojovém učení lze považovat za hru dvou hráčů, kteří spolu sou- peří a jsou odměňováni tak, že součet skóre obou hráčů je vždy nula. Nicméně hledání známého konceptu, takzvané Nashovo ekvilibrium, může být velice náročné, a proto se vytvořil jednodušší koncept, zvaný Nashovo ekvilibrium prvního řádu. Nejdříve prozkou- máme některé vlastnosti Nashových ekvilibrií prvního řádu, a poté ukážeme algoritmus Regularized Nikaidô-Isoda Stochastic Gradient Descent, jehož cílem je hledat právě tato zjednodušená ekvilibria. Dále naimplementujeme deterministickou variantu tohoto algo- ritmu a dokážeme, že za určitých podmínek konverguje. Na konci pak tuto implementaci předvedeme na vybraných příkladech a porovnáme ho s dalším algoritmem, Stay-on-the- ridge.
Many machine learning tasks can be modeled as two players competing against each other in a way that the score both players receive sums to zero. However the well- known concept, the Nash equilibrium, can be challenging to find, so a more relaxed concept was created, the first-order Nash equilibrium. We examine some of its properties and then present an algorithm, Regularized Nikaidô-Isoda Stochastic Gradient Descent, which aims to find these simpler solutions. Moreover, we implement its deterministic variant, for which we prove that it converges under additional assumptions. Finally, we demonstrate the implementation on selected examples and compare it to another algorithm, Stay-on-the-ridge.