Similarity Models for Content-based Video Retrieval
Modely podobnosti pro content-based video retrieval
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/184084Identifikátory
SIS: 250220
Kolekce
- Kvalifikační práce [11242]
Autor
Vedoucí práce
Oponent práce
Sixtová, Ivana
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Softwarové a datové inženýrství
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
6. 9. 2023
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
multimedia retrieval|modely podobnosti|deep learning|uživatelská studieKlíčová slova (anglicky)
multimedia retrieval|similarity models|deep learning|user studyVyhledávání multimédií je stále důležitější vzhledem k prudce rostoucímu objemu mul- timediálního obsahu. Proto je vyvíjeno mnoho nástrojů pro vyhledávání obrázků a videí, které využívají algoritmy modelování vizuální podobnosti pro vyhledávání podobných obrázků nebo tvorbu různých vizualizací. Tím pádem kvalita modelování podobnosti je pro tyto nástroje klíčová. Tato práce zkoumá různé modely podobnosti, jejich shodu s lidskými anotacemi a potenciální zlepšení. Do studie byly zahrnuty 3 třídy modelů podobnosti: modely založených na barvách, SIFTu nebo hlubokých neuronových sítí. Za tímto účelem byla provedena uživatelská studie s cílem vytvořit dataset relativních podob- ností obrázků s obecnými i specifickými obrázky. V této studii byli účastníci požádáni, aby vždy vybrali mezi dvěma možnostmi tu, která byla podobnější hlavnímu obrázku. Shromážděná data ukázala lepší výsledky modelů založených na hlubokých neuronových sítích ve srovnání s ostatními hodnocenými variantami. Nicméně všechny modely podob- nosti si vedly výrazně lépe než náhodný odhad. Abychom dále zvýšili přesnost modelů podobnosti, vyladili jsme model W2VV++ pomocí získaného datasetu. Díky tomu jsme v některých doménách dosáhli výrazného zlepšení. 1
Multimedia retrieval is increasingly important with the skyrocketing multimedia vol- umes produced every day. Therefore many image and video retrieval tools are being developed utilising visual similarity modelling algorithms for similar image retrieval or various visualisations. As such, the quality of the similarity modelling is crucial for these tools. This thesis explores diverse similarity models, their agreement with human percep- tion of similarity and possible improvements of these models. The examined similarity models consisted of colour-based, SIFT-based, and DNN-based models. For the purpose of model evaluation, a user study was conducted to create a dataset of relative image similarity comprising both generic images as well as two compact domains. In this study, the participants were asked to state which of the candidate images was more similar to the query image. The collected data showed the superiority of DNN-based models compared to other evaluated variants. Nonetheless, all similarity models performed significantly better than a random guess. In order to further enhance the performance of the simi- larity models, we fine-tuned the best-performing model (W2VV++) with the collected dataset and achieved significant improvement in some areas. 1