Zobrazit minimální záznam

Adaptace předtrénovaných modelů pro strojový překlad
dc.contributor.advisorBojar, Ondřej
dc.creatorKurniawan, Aditya
dc.date.accessioned2022-10-04T17:03:50Z
dc.date.available2022-10-04T17:03:50Z
dc.date.issued2022
dc.identifier.urihttp://hdl.handle.net/20.500.11956/175352
dc.description.abstractPre-trained language models received extensive attention in recent years. However, it is still challenging to incorporate a pre-trained model such as BERT into natural language generation tasks. This work investigates a recent method called adapters as an alternative to fine-tuning the whole model in machine translation. Adapters are a promising approach that allows fine-tuning only a tiny fraction of a pre-trained network. We show that with proper initialization, adapters can help achieve better performance than training models from scratch while training substantially fewer weights than the original model. We further show that even with randomly set weights used as the base models for fine-tuning, we can achieve similar performance to one of the baseline models, bypassing the need to train hundreds of millions of weights in the pre-training phase. Furthermore, we study the effectiveness of adapters in the Transformer model for machine translation. We put adapters either in the encoder or the decoder only, and we also attempt to down-scale the pre-trained model size to decrease GPU memory demands. We found that incorporating adapters in the encoder alone matches the setup's performance when we include the adapters on both the encoder and decoder. Finally, our down-scaling study found that using only half...en_US
dc.description.abstractPředtrénované jazykové modely jako například BERT v posledních letech sklízejí mnoho úspěchů, je však stále obttížné uplatnit je v úlohách generování textů přirozeného jazyka. Tato práce se zabývá nedávno navrženou technikou tzv. adaptérů jako slibné alternativy k dotrénovávání celé předtrénované sítě a studuje ji v oblasti strojového překladu. Adaptéry umožňují dotrénovat jen velmi malou část předtrénované sítě. Ukazu- jeme, že s vhodnou inicializací dosahují adaptéry lepších výsledků než trénování modelů od počátku; s adaptéry se přitom trénuje podstatně méně vah, než má plný model. Přek- vapující zjištění je, že adaptéry dovolí dosáhnout kvality blízké základnímu modelu i v pří- padě, že je vložíme a natrénujeme do sítě s fixními váhami, které byly nastaveny náhodně. Předtrénování základní sítě na velkých datech si v tomto případě můžeme ušetřit. Dále zkoumáme účinnost adaptérů v architektuře Transformeru uplatněné v úloze strojového překladu. Adaptéry vkládáme jen do enkodéru nebo jen do dekodéru, a pro ušetření paměti GPU se rovněž pokoušíme zmenšit velikost předtrénovaného modelu. Ukazuje se, že adaptéry použité jen v enkodéru vedou k obdobné kvalitě jako adaptéry použité v enkodéru i dekodéru současně. Studie zmenšování modelu pak ukazuje, že použití pouze poloviny předtrénovaných vah může s adaptéry...cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectadapters|machine translation|bert|transformer|transfer learningen_US
dc.subjectadapters|machine translation|bert|transformer|transfer learningcs_CZ
dc.titleAdapting Pretrained Models for Machine Translationen_US
dc.typediplomová prácecs_CZ
dcterms.created2022
dcterms.dateAccepted2022-09-02
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId245345
dc.title.translatedAdaptace předtrénovaných modelů pro strojový překladcs_CZ
dc.contributor.refereeVariš, Dušan
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineComputer Science - Language Technologies and Computational Linguisticsen_US
thesis.degree.disciplineComputer Science - Language Technologies and Computational Linguisticscs_CZ
thesis.degree.programComputer Science - Language Technologies and Computational Linguisticsen_US
thesis.degree.programComputer Science - Language Technologies and Computational Linguisticscs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csComputer Science - Language Technologies and Computational Linguisticscs_CZ
uk.degree-discipline.enComputer Science - Language Technologies and Computational Linguisticsen_US
uk.degree-program.csComputer Science - Language Technologies and Computational Linguisticscs_CZ
uk.degree-program.enComputer Science - Language Technologies and Computational Linguisticsen_US
thesis.grade.csVelmi dobřecs_CZ
thesis.grade.enVery gooden_US
uk.abstract.csPředtrénované jazykové modely jako například BERT v posledních letech sklízejí mnoho úspěchů, je však stále obttížné uplatnit je v úlohách generování textů přirozeného jazyka. Tato práce se zabývá nedávno navrženou technikou tzv. adaptérů jako slibné alternativy k dotrénovávání celé předtrénované sítě a studuje ji v oblasti strojového překladu. Adaptéry umožňují dotrénovat jen velmi malou část předtrénované sítě. Ukazu- jeme, že s vhodnou inicializací dosahují adaptéry lepších výsledků než trénování modelů od počátku; s adaptéry se přitom trénuje podstatně méně vah, než má plný model. Přek- vapující zjištění je, že adaptéry dovolí dosáhnout kvality blízké základnímu modelu i v pří- padě, že je vložíme a natrénujeme do sítě s fixními váhami, které byly nastaveny náhodně. Předtrénování základní sítě na velkých datech si v tomto případě můžeme ušetřit. Dále zkoumáme účinnost adaptérů v architektuře Transformeru uplatněné v úloze strojového překladu. Adaptéry vkládáme jen do enkodéru nebo jen do dekodéru, a pro ušetření paměti GPU se rovněž pokoušíme zmenšit velikost předtrénovaného modelu. Ukazuje se, že adaptéry použité jen v enkodéru vedou k obdobné kvalitě jako adaptéry použité v enkodéru i dekodéru současně. Studie zmenšování modelu pak ukazuje, že použití pouze poloviny předtrénovaných vah může s adaptéry...cs_CZ
uk.abstract.enPre-trained language models received extensive attention in recent years. However, it is still challenging to incorporate a pre-trained model such as BERT into natural language generation tasks. This work investigates a recent method called adapters as an alternative to fine-tuning the whole model in machine translation. Adapters are a promising approach that allows fine-tuning only a tiny fraction of a pre-trained network. We show that with proper initialization, adapters can help achieve better performance than training models from scratch while training substantially fewer weights than the original model. We further show that even with randomly set weights used as the base models for fine-tuning, we can achieve similar performance to one of the baseline models, bypassing the need to train hundreds of millions of weights in the pre-training phase. Furthermore, we study the effectiveness of adapters in the Transformer model for machine translation. We put adapters either in the encoder or the decoder only, and we also attempt to down-scale the pre-trained model size to decrease GPU memory demands. We found that incorporating adapters in the encoder alone matches the setup's performance when we include the adapters on both the encoder and decoder. Finally, our down-scaling study found that using only half...en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code2
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV