Machine Learning Methods in Motor Insurance Fraud Detection
Metody strojového učení při odhalování podvodů v pojištění motorových vozidel
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/194761Identifikátory
SIS: 259902
Kolekce
- Kvalifikační práce [18159]
Autor
Vedoucí práce
Oponent práce
Hanus, Luboš
Fakulta / součást
Fakulta sociálních věd
Obor
Ekonomie a finance se specializací Finanční trhy a datová analýza
Katedra / ústav / klinika
Institut ekonomických studií
Datum obhajoby
18. 9. 2024
Nakladatel
Univerzita Karlova, Fakulta sociálních vědJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
strojové učení, odhalování podvodů, pojišťovnictví, nevyvážená dataKlíčová slova (anglicky)
machine learning, fraud detection, insurance, unbalanced dataTato diplomová práce zkoumá aplikaci modelů strojového učení pro detekci podvodných pojistných událostí v pojišťení motorových vozidel. Porovnává účinnost několika algoritmů, včetně logistické regrese, random forest, XG- Boost, histogram-based gradient boosting machine a multilayer perceptron (MLP). Studie se zabývá výzvou nevyrovnaného datasetu v detekci podvodů, přičemž využívá techniky jako je Synthetic Minority Over-sampling Technique (SMOTE) a vážení efektu jednotlivých kategorií. Reálná data poskytnuta UNIQA pojišťovnou a.s., včetně podrobných informací o pojišťovacích smlou- vách a nárocích, slouží jako základ pro empirickou analýzu. Mezi testovanými modely dosáhl model XGBoost s využitím SMOTE tranformace a vážení kat- egorií nejvyšší míry zachycení podvodů s více než 90% detekovaných podvod- ných nároků. Analýza d uležitosti jednotlivých proměnných zdůraznila klíčové ukazatele podvodů, jako je výše nároku, typ krytí nebo stáří vozidla. Závěry této práce ukazují potenciál pokročilých technik strojového učení ke zvýšení efektivity systémů detekce podvodů v pojišťovnictví. Klasifikace JEL C49, G22, K42, Klíčová slova strojové učení, odhalování podvodů, po- jišťovnictví, nevyvážená data Název práce Využití strojového učení při odhalovaní po- jistných povodů v autopojištění E-mail autora...
This thesis explores the application of machine learning models for detecting fraudulent claims in motor insurance. It compares the effectiveness of several algorithms, including logistic regression, random forest, XGBoost, histogram- based gradient boosting, and multilayer perceptron (MLP). The study ad- dresses the challenge of class imbalance in fraud detection, utilizing tech- niques such as Synthetic Minority Over-sampling Technique (SMOTE) and class weighting to enhance model performance. Real-world data provided by UNIQA pojišťovna a.s., including detailed information on insurance contracts and claims, serve as the basis for the empirical analysis. Among the models tested, XGBoost with SMOTE resampling and class weighting achieved the highest recall rate, detecting over 90% of fraudulent claims, while maintaining a reasonable level of precision. The feature importance analysis highlighted key predictors of fraud, such as claim amount, type of coverage or vehicle age. The findings underscore the potential of advanced machine learning techniques to improve the efficiency of fraud detection systems in the insurance industry. JEL Classification C49, G22, K42, Keywords machine learning, fraud detection, insurance, unbalanced data Title Machine Learning Methods in Motor Insurance Fraud Detection...