Machine Learning Methods in Motor Insurance Fraud Detection
Metody strojového učení při odhalování podvodů v pojištění motorových vozidel
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/194761Identifiers
Study Information System: 259902
Collections
- Kvalifikační práce [18159]
Author
Advisor
Referee
Hanus, Luboš
Faculty / Institute
Faculty of Social Sciences
Discipline
Economics and Finance with specialisation in Financial Markets and Data Analysis
Department
Institute of Economic Studies
Date of defense
18. 9. 2024
Publisher
Univerzita Karlova, Fakulta sociálních vědLanguage
English
Grade
Excellent
Keywords (Czech)
strojové učení, odhalování podvodů, pojišťovnictví, nevyvážená dataKeywords (English)
machine learning, fraud detection, insurance, unbalanced dataTato diplomová práce zkoumá aplikaci modelů strojového učení pro detekci podvodných pojistných událostí v pojišťení motorových vozidel. Porovnává účinnost několika algoritmů, včetně logistické regrese, random forest, XG- Boost, histogram-based gradient boosting machine a multilayer perceptron (MLP). Studie se zabývá výzvou nevyrovnaného datasetu v detekci podvodů, přičemž využívá techniky jako je Synthetic Minority Over-sampling Technique (SMOTE) a vážení efektu jednotlivých kategorií. Reálná data poskytnuta UNIQA pojišťovnou a.s., včetně podrobných informací o pojišťovacích smlou- vách a nárocích, slouží jako základ pro empirickou analýzu. Mezi testovanými modely dosáhl model XGBoost s využitím SMOTE tranformace a vážení kat- egorií nejvyšší míry zachycení podvodů s více než 90% detekovaných podvod- ných nároků. Analýza d uležitosti jednotlivých proměnných zdůraznila klíčové ukazatele podvodů, jako je výše nároku, typ krytí nebo stáří vozidla. Závěry této práce ukazují potenciál pokročilých technik strojového učení ke zvýšení efektivity systémů detekce podvodů v pojišťovnictví. Klasifikace JEL C49, G22, K42, Klíčová slova strojové učení, odhalování podvodů, po- jišťovnictví, nevyvážená data Název práce Využití strojového učení při odhalovaní po- jistných povodů v autopojištění E-mail autora...
This thesis explores the application of machine learning models for detecting fraudulent claims in motor insurance. It compares the effectiveness of several algorithms, including logistic regression, random forest, XGBoost, histogram- based gradient boosting, and multilayer perceptron (MLP). The study ad- dresses the challenge of class imbalance in fraud detection, utilizing tech- niques such as Synthetic Minority Over-sampling Technique (SMOTE) and class weighting to enhance model performance. Real-world data provided by UNIQA pojišťovna a.s., including detailed information on insurance contracts and claims, serve as the basis for the empirical analysis. Among the models tested, XGBoost with SMOTE resampling and class weighting achieved the highest recall rate, detecting over 90% of fraudulent claims, while maintaining a reasonable level of precision. The feature importance analysis highlighted key predictors of fraud, such as claim amount, type of coverage or vehicle age. The findings underscore the potential of advanced machine learning techniques to improve the efficiency of fraud detection systems in the insurance industry. JEL Classification C49, G22, K42, Keywords machine learning, fraud detection, insurance, unbalanced data Title Machine Learning Methods in Motor Insurance Fraud Detection...