dc.contributor.advisor | Javorský, Dávid | |
dc.creator | Osuský, Adam | |
dc.date.accessioned | 2024-11-29T05:06:11Z | |
dc.date.available | 2024-11-29T05:06:11Z | |
dc.date.issued | 2024 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/192820 | |
dc.description.abstract | Tato bakalářská práce komplexně zkoumá hodnocení důležitosti slov, od definování tohoto pojmu po vytvoření a vyhodnocení predikčního systému. Po- mocí našeho webového anotačního nástroje jsme sebrali ruční odhady důležitosti slov; důležitost přitom definujeme jako relativní uspořádání slov. Navrhujeme metodu self-supervised strojového učení, kde jsou do textu uměle vložena nová slova a my pak dolaďujeme model BERT, aby se naučil tato slova identifikovat. Předpokládáme, že výsledný model přidělí vyšší pravděpodobnost vložení méně důležitým slovům. Experimentujeme se dvěma různými strategiemi vkládání: metodou vkládání seznamem a metodou vkládání BERTem. Vyhodnocení na našich shromážděných datech ukazuje, že naše metody překonávají tradiční základní metody jako TF-IDF a soupeří s existujícími přístupy, což dokládá funkčnost našeho přístupu při predikci důležitosti slov. 1 | cs_CZ |
dc.description.abstract | This thesis explores the assessment of word importance, from defining the concept to creating and evaluating a prediction system. We collect word impor- tance labels using our web-based annotation tool and define word importance as word rankings. We propose a self-supervised machine learning method where new words are artificially inserted into text, and then we fine-tune the BERT model to learn to identify these words. We hypothesize that the resulting model will assign a higher likelihood of insertion to less important words. We exper- iment with two different insertion strategies: the List Inserting Method and the BERT Inserting Method. Evaluations on our collected data show that our methods outperform traditional baselines such as TF-IDF and rival existing ap- proaches, demonstrating the effectiveness of our approach in predicting word importance. 1 | en_US |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | word importance|language modeling | en_US |
dc.subject | dôležitosť slov|jazykové modelovanie | cs_CZ |
dc.title | Predicting Word Importance Using Pre-Trained Language Models | en_US |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2024 | |
dcterms.dateAccepted | 2024-09-05 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 264710 | |
dc.title.translated | Predikcia dôležitosti slov pomocou predtrénovaných jazykových modelov | cs_CZ |
dc.contributor.referee | Macháček, Dominik | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | Computer Science with specialisation in Artificial Intelligence | en_US |
thesis.degree.discipline | Informatika se specializací Umělá inteligence | cs_CZ |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Informatika se specializací Umělá inteligence | cs_CZ |
uk.degree-discipline.en | Computer Science with specialisation in Artificial Intelligence | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Tato bakalářská práce komplexně zkoumá hodnocení důležitosti slov, od definování tohoto pojmu po vytvoření a vyhodnocení predikčního systému. Po- mocí našeho webového anotačního nástroje jsme sebrali ruční odhady důležitosti slov; důležitost přitom definujeme jako relativní uspořádání slov. Navrhujeme metodu self-supervised strojového učení, kde jsou do textu uměle vložena nová slova a my pak dolaďujeme model BERT, aby se naučil tato slova identifikovat. Předpokládáme, že výsledný model přidělí vyšší pravděpodobnost vložení méně důležitým slovům. Experimentujeme se dvěma různými strategiemi vkládání: metodou vkládání seznamem a metodou vkládání BERTem. Vyhodnocení na našich shromážděných datech ukazuje, že naše metody překonávají tradiční základní metody jako TF-IDF a soupeří s existujícími přístupy, což dokládá funkčnost našeho přístupu při predikci důležitosti slov. 1 | cs_CZ |
uk.abstract.en | This thesis explores the assessment of word importance, from defining the concept to creating and evaluating a prediction system. We collect word impor- tance labels using our web-based annotation tool and define word importance as word rankings. We propose a self-supervised machine learning method where new words are artificially inserted into text, and then we fine-tune the BERT model to learn to identify these words. We hypothesize that the resulting model will assign a higher likelihood of insertion to less important words. We exper- iment with two different insertion strategies: the List Inserting Method and the BERT Inserting Method. Evaluations on our collected data show that our methods outperform traditional baselines such as TF-IDF and rival existing ap- proaches, demonstrating the effectiveness of our approach in predicting word importance. 1 | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | 1 | |
dc.contributor.consultant | Bojar, Ondřej | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |