Binning numerical variables in credit risk models
Diskretizace numerických proměnných v modelech kreditního rizika
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/186153Identifikátory
SIS: 248262
Kolekce
- Kvalifikační práce [18289]
Autor
Vedoucí práce
Oponent práce
Teplý, Petr
Fakulta / součást
Fakulta sociálních věd
Obor
Ekonomie a finance se specializací Finanční trhy a datová analýza
Katedra / ústav / klinika
Institut ekonomických studií
Datum obhajoby
21. 9. 2023
Nakladatel
Univerzita Karlova, Fakulta sociálních vědJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Kreditní riziko, diskretizace, strojové učení, výkonnostKlíčová slova (anglicky)
Credit risk, binning, machine learning, performanceTato práce zkoumá vliv diskretizace numerických proměnných na výkonnost modelů kreditního rizika. Rozdíly ve výkonnosti jsou vyhodnoceny s využitím pěti veřejně dostupných datových souborů, šesti indikátorů výkonnosti a stati- stického testu. Výsledky naznačují, že diskretizace má pozitivní a významný vliv na výkonnost logistické regrese, neuronové sítě a naivního Bayes klasi- fikátoru. Nejvíce ovlivněným aspektem výkonnosti modelu se zdá být jeho schopnost rozlišovat mezi dobrými a špatnými klienty. Výsledky jsou zvláště patrné pro středně velké datové soubory. Závěry jsou odolné vůči chybějícím hodnotám, eliminaci extrémních pozorování a vyloučení kategorických proměn- ných. Pro rozhodovací strom a náhodný les nebyl nalezen žádný významný pozitivní účinek diskretizace na výkonnost.
This thesis investigates the effect of binning numerical variables on the per- formance of credit risk models. The differences are evaluated utilizing five publicly available data sets, six evaluation metrics, and a rigorous statistical test. The results suggest that the binning transformation has a positive and significant effect on the performance of logistic regression, feedforward artifi- cial neural network, and the Naïve Bayes classifier. The most affected aspect of model performance appears to be its ability to differentiate between eligible and ineligible customers. The obtained evidence is particularly pronounced for moderately-sized data sets. In addition, the findings are robust to the inclusion of missing values, the elimination of outliers, and the exclusion of categorical features. No significant positive effect of the binning transformation was found for the decision tree algorithm and the Random Forest model.