Learning capabilities in Transformer Neural Networks
Schopnosti učení v transformerových neuronových sítích
dizertační práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/188234Identifikátory
SIS: 177547
Kolekce
- Kvalifikační práce [11242]
Autor
Vedoucí práce
Oponent práce
Sennrich, Rico
Dušek, Ondřej
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
24. 3. 2023
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Prospěl/a
Klíčová slova (česky)
neuronový strojový překlad|katastrofické zapomínání|modulární neuronové sítě|navazující učení|generalizaceKlíčová slova (anglicky)
neural machine translation|catastrophic forgetting|modular neural networks|incremental learning|generalizationNázev práce: Schopnosti učení neuronových sítí Transformer Autor: Dušan Variš Katedra: Ústav formální a aplikované lingvistiky Vedoucí práce: doc. RNDr. Ondřej Bojar, Ph.D., Ústav formální a aplikované lingvistiky Abstrakt: Přestože současné neuronové sítě, inspirované biologickými neurony, byly v posled- ních letech schopny dosáhnout lidské úrovně na mnoha úlohách, proces jejich op- timalizace (učení) je stále velmi odlišný od procesů pozorovaných u lidí. Tato práce zkoumá různé aspekty učení současných neuronových sítí Transformer, převláda- jící architektury pro zpracování přirozeného jazyka. V první části zkoumáme úro- veň generalizace v Transformerech pomocí analytických experimentů založených na myšlence adversariální evaluace. V části druhé pak zkoumáme jejich potenciál pro kontinuální učení s použitím regularizace založené na elastické konsolidaci vah. V závěru práce navrhujeme modulární rozšíření stávající sítě Transformer umožňující výběr podsítí podmíněný zpracovaným vstupem spolu s demonstrací vlastností této síťové modularizace. Naše hypotézy testujeme především v kontextu neuronového strojového překladu a vícejazyčného překladu, přičemž naměřené výsledky odhalují limity původního Transformeru i metody regularizace pomocí elastické konsolidace vah. Navíc prezentujeme slibné výsledky navržené...
Title: Learning Capabilities of the Transformer Neural Networks Author: Dušan Variš Department: Institute of Formal and Applied Linguistics Supervisor: doc. RNDr. Ondřej Bojar, Ph.D., Institute of Formal and Applied Linguistics Abstract: Although the contemporary neural networks, inspired by biological neurons, were able to reach human-like performance on many tasks in recent years, their optimiza- tion (learning) process is still very far from the one observed in humans. This thesis investigates various aspects of learning in the current state-of-the-art Transformer neural networks, the dominant architecture in the current neural language process- ing. Firstly, we measure the level of generalization in Transformers using several probing experiments based on the idea of adversarial evaluation. Secondly, we ex- plore their potential for incremental learning when combined with regularization using the elastic weight consolidation approach. Lastly, we propose a modular ex- tension of the existing Transformer architecture enabling subnetwork selection con- ditioned on the intermediate hidden layer outputs and analyze the attributes of this network modularization. We investigate our hypotheses mainly within the scope of neural machine translation and multilingual translation showing the limitations of the...