Predicting Word Importance Using Pre-Trained Language Models
Predikcia dôležitosti slov pomocou predtrénovaných jazykových modelov
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/192820Identifiers
Study Information System: 264710
Collections
- Kvalifikační práce [11216]
Author
Advisor
Consultant
Bojar, Ondřej
Referee
Macháček, Dominik
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science with specialisation in Artificial Intelligence
Department
Institute of Formal and Applied Linguistics
Date of defense
5. 9. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
dôležitosť slov|jazykové modelovanieKeywords (English)
word importance|language modelingTato bakalářská práce komplexně zkoumá hodnocení důležitosti slov, od definování tohoto pojmu po vytvoření a vyhodnocení predikčního systému. Po- mocí našeho webového anotačního nástroje jsme sebrali ruční odhady důležitosti slov; důležitost přitom definujeme jako relativní uspořádání slov. Navrhujeme metodu self-supervised strojového učení, kde jsou do textu uměle vložena nová slova a my pak dolaďujeme model BERT, aby se naučil tato slova identifikovat. Předpokládáme, že výsledný model přidělí vyšší pravděpodobnost vložení méně důležitým slovům. Experimentujeme se dvěma různými strategiemi vkládání: metodou vkládání seznamem a metodou vkládání BERTem. Vyhodnocení na našich shromážděných datech ukazuje, že naše metody překonávají tradiční základní metody jako TF-IDF a soupeří s existujícími přístupy, což dokládá funkčnost našeho přístupu při predikci důležitosti slov. 1
This thesis explores the assessment of word importance, from defining the concept to creating and evaluating a prediction system. We collect word impor- tance labels using our web-based annotation tool and define word importance as word rankings. We propose a self-supervised machine learning method where new words are artificially inserted into text, and then we fine-tune the BERT model to learn to identify these words. We hypothesize that the resulting model will assign a higher likelihood of insertion to less important words. We exper- iment with two different insertion strategies: the List Inserting Method and the BERT Inserting Method. Evaluations on our collected data show that our methods outperform traditional baselines such as TF-IDF and rival existing ap- proaches, demonstrating the effectiveness of our approach in predicting word importance. 1