Predicting Word Importance Using Pre-Trained Language Models
Predikcia dôležitosti slov pomocou predtrénovaných jazykových modelov
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/192820Identifikátory
SIS: 264710
Kolekce
- Kvalifikační práce [11214]
Autor
Vedoucí práce
Konzultant práce
Bojar, Ondřej
Oponent práce
Macháček, Dominik
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
5. 9. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
dôležitosť slov|jazykové modelovanieKlíčová slova (anglicky)
word importance|language modelingTato bakalářská práce komplexně zkoumá hodnocení důležitosti slov, od definování tohoto pojmu po vytvoření a vyhodnocení predikčního systému. Po- mocí našeho webového anotačního nástroje jsme sebrali ruční odhady důležitosti slov; důležitost přitom definujeme jako relativní uspořádání slov. Navrhujeme metodu self-supervised strojového učení, kde jsou do textu uměle vložena nová slova a my pak dolaďujeme model BERT, aby se naučil tato slova identifikovat. Předpokládáme, že výsledný model přidělí vyšší pravděpodobnost vložení méně důležitým slovům. Experimentujeme se dvěma různými strategiemi vkládání: metodou vkládání seznamem a metodou vkládání BERTem. Vyhodnocení na našich shromážděných datech ukazuje, že naše metody překonávají tradiční základní metody jako TF-IDF a soupeří s existujícími přístupy, což dokládá funkčnost našeho přístupu při predikci důležitosti slov. 1
This thesis explores the assessment of word importance, from defining the concept to creating and evaluating a prediction system. We collect word impor- tance labels using our web-based annotation tool and define word importance as word rankings. We propose a self-supervised machine learning method where new words are artificially inserted into text, and then we fine-tune the BERT model to learn to identify these words. We hypothesize that the resulting model will assign a higher likelihood of insertion to less important words. We exper- iment with two different insertion strategies: the List Inserting Method and the BERT Inserting Method. Evaluations on our collected data show that our methods outperform traditional baselines such as TF-IDF and rival existing ap- proaches, demonstrating the effectiveness of our approach in predicting word importance. 1