Machine Learning Methods in Motor Insurance Fraud Detection

Bajgarová, Barbora

Metody strojového učení při odhalování podvodů v pojištění motorových vozidel

diploma thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (278.0Kb)

Permanent link

http://hdl.handle.net/20.500.11956/194761

Identifiers

Study Information System: 259902

Referee

Hanus, Luboš

Faculty / Institute

Faculty of Social Sciences

Discipline

Economics and Finance with specialisation in Financial Markets and Data Analysis

Department

Institute of Economic Studies

Date of defense

18. 9. 2024

Publisher

Univerzita Karlova, Fakulta sociálních věd

Language

English

Grade

Excellent

Keywords (Czech)

strojové učení, odhalování podvodů, pojišťovnictví, nevyvážená data

Keywords (English)

machine learning, fraud detection, insurance, unbalanced data

Tato diplomová práce zkoumá aplikaci modelů strojového učení pro detekci podvodných pojistných událostí v pojišťení motorových vozidel. Porovnává účinnost několika algoritmů, včetně logistické regrese, random forest, XG- Boost, histogram-based gradient boosting machine a multilayer perceptron (MLP). Studie se zabývá výzvou nevyrovnaného datasetu v detekci podvodů, přičemž využívá techniky jako je Synthetic Minority Over-sampling Technique (SMOTE) a vážení efektu jednotlivých kategorií. Reálná data poskytnuta UNIQA pojišťovnou a.s., včetně podrobných informací o pojišťovacích smlou- vách a nárocích, slouží jako základ pro empirickou analýzu. Mezi testovanými modely dosáhl model XGBoost s využitím SMOTE tranformace a vážení kat- egorií nejvyšší míry zachycení podvodů s více než 90% detekovaných podvod- ných nároků. Analýza d uležitosti jednotlivých proměnných zdůraznila klíčové ukazatele podvodů, jako je výše nároku, typ krytí nebo stáří vozidla. Závěry této práce ukazují potenciál pokročilých technik strojového učení ke zvýšení efektivity systémů detekce podvodů v pojišťovnictví. Klasifikace JEL C49, G22, K42, Klíčová slova strojové učení, odhalování podvodů, po- jišťovnictví, nevyvážená data Název práce Využití strojového učení při odhalovaní po- jistných povodů v autopojištění E-mail autora...

Abstract (English)

This thesis explores the application of machine learning models for detecting fraudulent claims in motor insurance. It compares the effectiveness of several algorithms, including logistic regression, random forest, XGBoost, histogram- based gradient boosting, and multilayer perceptron (MLP). The study ad- dresses the challenge of class imbalance in fraud detection, utilizing tech- niques such as Synthetic Minority Over-sampling Technique (SMOTE) and class weighting to enhance model performance. Real-world data provided by UNIQA pojišťovna a.s., including detailed information on insurance contracts and claims, serve as the basis for the empirical analysis. Among the models tested, XGBoost with SMOTE resampling and class weighting achieved the highest recall rate, detecting over 90% of fraudulent claims, while maintaining a reasonable level of precision. The feature importance analysis highlighted key predictors of fraud, such as claim amount, type of coverage or vehicle age. The findings underscore the potential of advanced machine learning techniques to improve the efficiency of fraud detection systems in the insurance industry. JEL Classification C49, G22, K42, Keywords machine learning, fraud detection, insurance, unbalanced data Title Machine Learning Methods in Motor Insurance Fraud Detection...

Citace dokumentu

Metadata

Show full item record