Zobrazit minimální záznam

Predikcia dôležitosti slov pomocou predtrénovaných jazykových modelov
dc.contributor.advisorJavorský, Dávid
dc.creatorOsuský, Adam
dc.date.accessioned2024-11-29T05:06:11Z
dc.date.available2024-11-29T05:06:11Z
dc.date.issued2024
dc.identifier.urihttp://hdl.handle.net/20.500.11956/192820
dc.description.abstractTato bakalářská práce komplexně zkoumá hodnocení důležitosti slov, od definování tohoto pojmu po vytvoření a vyhodnocení predikčního systému. Po- mocí našeho webového anotačního nástroje jsme sebrali ruční odhady důležitosti slov; důležitost přitom definujeme jako relativní uspořádání slov. Navrhujeme metodu self-supervised strojového učení, kde jsou do textu uměle vložena nová slova a my pak dolaďujeme model BERT, aby se naučil tato slova identifikovat. Předpokládáme, že výsledný model přidělí vyšší pravděpodobnost vložení méně důležitým slovům. Experimentujeme se dvěma různými strategiemi vkládání: metodou vkládání seznamem a metodou vkládání BERTem. Vyhodnocení na našich shromážděných datech ukazuje, že naše metody překonávají tradiční základní metody jako TF-IDF a soupeří s existujícími přístupy, což dokládá funkčnost našeho přístupu při predikci důležitosti slov. 1cs_CZ
dc.description.abstractThis thesis explores the assessment of word importance, from defining the concept to creating and evaluating a prediction system. We collect word impor- tance labels using our web-based annotation tool and define word importance as word rankings. We propose a self-supervised machine learning method where new words are artificially inserted into text, and then we fine-tune the BERT model to learn to identify these words. We hypothesize that the resulting model will assign a higher likelihood of insertion to less important words. We exper- iment with two different insertion strategies: the List Inserting Method and the BERT Inserting Method. Evaluations on our collected data show that our methods outperform traditional baselines such as TF-IDF and rival existing ap- proaches, demonstrating the effectiveness of our approach in predicting word importance. 1en_US
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectword importance|language modelingen_US
dc.subjectdôležitosť slov|jazykové modelovaniecs_CZ
dc.titlePredicting Word Importance Using Pre-Trained Language Modelsen_US
dc.typebakalářská prácecs_CZ
dcterms.created2024
dcterms.dateAccepted2024-09-05
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId264710
dc.title.translatedPredikcia dôležitosti slov pomocou predtrénovaných jazykových modelovcs_CZ
dc.contributor.refereeMacháček, Dominik
thesis.degree.nameBc.
thesis.degree.levelbakalářskécs_CZ
thesis.degree.disciplineComputer Science with specialisation in Artificial Intelligenceen_US
thesis.degree.disciplineInformatika se specializací Umělá inteligencecs_CZ
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typebakalářská prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csInformatika se specializací Umělá inteligencecs_CZ
uk.degree-discipline.enComputer Science with specialisation in Artificial Intelligenceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csTato bakalářská práce komplexně zkoumá hodnocení důležitosti slov, od definování tohoto pojmu po vytvoření a vyhodnocení predikčního systému. Po- mocí našeho webového anotačního nástroje jsme sebrali ruční odhady důležitosti slov; důležitost přitom definujeme jako relativní uspořádání slov. Navrhujeme metodu self-supervised strojového učení, kde jsou do textu uměle vložena nová slova a my pak dolaďujeme model BERT, aby se naučil tato slova identifikovat. Předpokládáme, že výsledný model přidělí vyšší pravděpodobnost vložení méně důležitým slovům. Experimentujeme se dvěma různými strategiemi vkládání: metodou vkládání seznamem a metodou vkládání BERTem. Vyhodnocení na našich shromážděných datech ukazuje, že naše metody překonávají tradiční základní metody jako TF-IDF a soupeří s existujícími přístupy, což dokládá funkčnost našeho přístupu při predikci důležitosti slov. 1cs_CZ
uk.abstract.enThis thesis explores the assessment of word importance, from defining the concept to creating and evaluating a prediction system. We collect word impor- tance labels using our web-based annotation tool and define word importance as word rankings. We propose a self-supervised machine learning method where new words are artificially inserted into text, and then we fine-tune the BERT model to learn to identify these words. We hypothesize that the resulting model will assign a higher likelihood of insertion to less important words. We exper- iment with two different insertion strategies: the List Inserting Method and the BERT Inserting Method. Evaluations on our collected data show that our methods outperform traditional baselines such as TF-IDF and rival existing ap- proaches, demonstrating the effectiveness of our approach in predicting word importance. 1en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code1
dc.contributor.consultantBojar, Ondřej
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV