Machine Learning Methods in Payment Card Fraud Detection

Sinčák, Jan

Metody strojového učení v detekci podvodných karetních transakcí

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (277.3Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/182600

Identifikátory

SIS: 236963

Oponent práce

Vácha, Lukáš

Fakulta / součást

Fakulta sociálních věd

Obor

Ekonomie a finance

Katedra / ústav / klinika

Institut ekonomických studií

Datum obhajoby

21. 6. 2023

Nakladatel

Univerzita Karlova, Fakulta sociálních věd

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

strojové učení, karetní podvody, detekce podvodů, nevyvážená data

Klíčová slova (anglicky)

machine learning, card fraud, fraud detection, imbalanced data

Ochrana klientů před podvodnými transakcemi je náročný úkol. Banky se ob- vykle spoléhají na systémy založené na pravidlech, které vyžadují ruční tvorbu těchto pravidel pro identifikaci podvodu. Tato pravidla musí nastavit zaměst- nanci banky, kteří musí sami vyhledávat trendy v podvodných transakcích. Tato práce se zabývá problémem odhalování podvodných karetních transakcí a porovnává několik modelů strojového učení pro detekci podvodů. Tyto mod- ely mohou v datech najít složité vztahy a potenciálně překonat klasické sys- témy detekce podvodů, Logistická regrese, neuronová síť, random forest a ex- treme gradient boosting (XGBoost) jsou trénovány na simulovaném souboru dat, který věrně kopíruje vlastnosti skutečných karetních transakcí. Výkon- nost modelů se měří podle citlivosti, specificity, preciznosti, AUC a časové náročnosti předpovědi na testovacím souboru dat. XGBoost vykazuje nejvyšší výkonnost mezi testovanými modely. Poté je porovnáván se standardním sys- témem detekce podvodů používaným v české bance. Bankovní systém dosahuje vyšší specificity, ale XGBoost přesto vykazuje slibné výsledky. Je možné, že některé modely strojového učení by mohly překonat současné systémy detekce podvodů, pokud budou dobře vyladěny. Klasifikace JEL G21, K42 Klíčová slova strojové učení, karetní podvody,...

Abstrakt (anglicky)

Protection of clients from fraudulent transactions is a complicated task. Banks tend to rely on rule-based systems which require manual creation of rules to identify fraud. These rules have to be set up by employees of the bank who need to look for any trends in fraudulent transactions themselves. This thesis deals with the problem of detection of fraudulent card transactions as it com- pares multiple machine learning models for fraud detection. These models can find complex relationships in the data and potentially outperform standard fraud detection systems, Logistic regression, neural network, random forest, and extreme gradient boosting (XGBoost) models are trained on a simulated dataset that closely follows properties of real card transactions. Performance of the models is measured by sensitivity, specificity, precision, AUC, and time to predict on the testing dataset. XGBoost shows the highest performance among the tested models. It is then compared to a standard fraud detection system used in a Czech bank. The bank system achieves higher specificity but XGBoost still shows promising performance. It is possible that certain machine learning models could outperform today's fraud detection systems if they are well-tuned. JEL Classification G21, K42 Keywords machine learning, card fraud, fraud...

Citace dokumentu

Metadata

Zobrazit celý záznam