Evolution strategies for policy optimization in transformers

Lorenc, Matyáš

Evoluční strategie pro optimalizaci policy v transformerech

diploma thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (347.2Kb)

Permanent link

http://hdl.handle.net/20.500.11956/188488

Identifiers

Study Information System: 258206

Referee

Pilát, Martin

Faculty / Institute

Faculty of Mathematics and Physics

Discipline

Computer Science - Artificial Intelligence

Department

Department of Theoretical Computer Science and Mathematical Logic

Date of defense

13. 2. 2024

Publisher

Univerzita Karlova, Matematicko-fyzikální fakulta

Language

English

Grade

Excellent

Keywords (Czech)

Evoluční strategie|Transformery|Optimalizace policy|Novelty

Keywords (English)

Evolution strategies|Tranformers|Policy optimization|Novelty

Cílem práce je prozkoumat schopnost evolučních strategií trénovat architektury trans- formerů v prostředí zpětnovazebního učení. Provedeme experimenty s využitím vysoce paralelizovatelného algoritmu OpenAI-ES a dvou jeho variant využívajících konceptů no- velty a quality-diversity prohledávání k trénování architektury Decision Transformeru v prostředí MuJoCo Humanoida a otestujeme tak schopnost těchto black-box optimalizač- ních technik trénovat i takto relativně velké (ve srovnání s dříve testovanými) a kom- plikované modely (využívajících self-attention vedle klasických plně propojených vrstev). Testované algoritmy se v našich experimentech ukázaly obecně jako schopné dosahovat silných výsledků a dokázaly vyvinout vysoce výkonné agenty - a to jak z náhodně ini- cializovaného modelu, tak z předtrénovaného modelu. 1

Abstract (English)

We explore the capability of evolution strategies to train a transformer architecture in the reinforcement learning setting. We perform experiments using OpenAI's highly parallelizable evolution strategy and its derivatives utilizing novelty and quality-diversity searches to train Decision Transformer in Humanoid locomotion environment, testing the ability of these black-box optimization techniques to train even such relatively large (com- pared to the previously tested in the literature) and complicated (using a self-attention in addition to fully connected layers) models. The tested algorithms proved to be, in gen- eral, capable of achieving strong results and managed to obtain high-performing agents both from scratch (randomly initialized model) and from a pretrained model. 1

Citace dokumentu

Metadata

Show full item record