Větné reprezentace s interpretací podobnosti
Sentence representations with similarity interpretation
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/188477Identifikátory
SIS: 256681
Kolekce
- Kvalifikační práce [11326]
Autor
Vedoucí práce
Oponent práce
Libovický, Jindřich
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
13. 2. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
neuronové sítě|větné embeddingyKlíčová slova (anglicky)
neural networks|sentence embeddingsVětné reprezentace - tzv. embeddingy, získané z modelů neuronových sítí, tvoří jádro mnoha aplikací jak v akademickém prostředí, tak v průmyslu. Ačkoliv embed- dingy dosahují vynikajících výsledků v korelaci s lidským vnímáním větné podobnosti, často chybí vysvětlení, proč modely rozhodly o větách, že jsou podobné či nepodobné. V této práci se snažíme zvýšit interpretovatelnost embeddingů začleněním různých sé- mantických anotací do průběhu tréninku modelu. Představujeme takto natrénovaný model SBERTslice, který vytváří embeddingy schopné rozlišovat různé sémantické vlast- nosti textu, včetně prvků jako je negace, sentiment, jmenné entity, emocionální tón a sémantické vztahy mezi větným slovesem a dalšími slovy ve větě. Otestovali jsme embeddingy generované modelem SBERTslice v určování sémantické podobnosti vět a klasifikaci textu, kde SBERTslice ve většině případů překonal původní model SBERT. 1
Sentence representations - embeddings - obtained from neural network models are the core part of many applications in both academia and industry. Although embeddings reach great results in correlation with human sense of sentence similarity, there is often a lack of explanation for why models choose sentences to be similar. In this thesis, we strive to increase the interpretability of model embeddings by incorporating different semantic sentence level annotations in the learning process. We introduce a model called SBERTslice that produces embeddings that can distinguish nuanced semantic variations in text, including elements like negation, sentiment, named entities, emotional tone, and verb-oriented relation between words in a text. We evaluated SBERTslice embeddings in various text classification and semantic sim- ilarity tasks and for a majority of them, SBERTslice outperformed the original SBERT. 1