Binning numerical variables in credit risk models

Mattanelli, Matyáš

Diskretizace numerických proměnných v modelech kreditního rizika

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (278.9Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/186153

Identifikátory

SIS: 248262

Oponent práce

Teplý, Petr

Fakulta / součást

Fakulta sociálních věd

Obor

Ekonomie a finance se specializací Finanční trhy a datová analýza

Katedra / ústav / klinika

Institut ekonomických studií

Datum obhajoby

21. 9. 2023

Nakladatel

Univerzita Karlova, Fakulta sociálních věd

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

Kreditní riziko, diskretizace, strojové učení, výkonnost

Klíčová slova (anglicky)

Credit risk, binning, machine learning, performance

Tato práce zkoumá vliv diskretizace numerických proměnných na výkonnost modelů kreditního rizika. Rozdíly ve výkonnosti jsou vyhodnoceny s využitím pěti veřejně dostupných datových souborů, šesti indikátorů výkonnosti a stati- stického testu. Výsledky naznačují, že diskretizace má pozitivní a významný vliv na výkonnost logistické regrese, neuronové sítě a naivního Bayes klasi- fikátoru. Nejvíce ovlivněným aspektem výkonnosti modelu se zdá být jeho schopnost rozlišovat mezi dobrými a špatnými klienty. Výsledky jsou zvláště patrné pro středně velké datové soubory. Závěry jsou odolné vůči chybějícím hodnotám, eliminaci extrémních pozorování a vyloučení kategorických proměn- ných. Pro rozhodovací strom a náhodný les nebyl nalezen žádný významný pozitivní účinek diskretizace na výkonnost.

Abstrakt (anglicky)

This thesis investigates the effect of binning numerical variables on the per- formance of credit risk models. The differences are evaluated utilizing five publicly available data sets, six evaluation metrics, and a rigorous statistical test. The results suggest that the binning transformation has a positive and significant effect on the performance of logistic regression, feedforward artifi- cial neural network, and the Naïve Bayes classifier. The most affected aspect of model performance appears to be its ability to differentiate between eligible and ineligible customers. The obtained evidence is particularly pronounced for moderately-sized data sets. In addition, the findings are robust to the inclusion of missing values, the elimination of outliers, and the exclusion of categorical features. No significant positive effect of the binning transformation was found for the decision tree algorithm and the Random Forest model.

Citace dokumentu

Metadata

Zobrazit celý záznam