Cross-validation and its use in statistics
Kross-validace a její využití ve statistice
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/190559Identifiers
Study Information System: 257148
Collections
- Kvalifikační práce [11242]
Author
Advisor
Referee
Hušková, Marie
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Probability, Mathematical Statistics and Econometrics with specialisation in Mathematical Statistics
Department
Department of Probability and Mathematical Statistics
Date of defense
10. 6. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
křížová validace|jádrové odhady hustoty|neparametrická jádrová regrese|lineární modelKeywords (English)
cross-validation|kernel density estimation|nonparametric kernel regression|linear modelV této práci je zkoumáno použití metod křížové validace v různých oblastech statistiky. Nejprve se zaměřujeme na použití tzv. metody leave-one-out cross-validation, CV(1), pro volbu vyhlazovacích parametrů v jádrovém odhadu hustoty a úlohách jádrové regrese. Teoretické výsledky jsou demonstrovány na simulovaných datech. Dále se zabýváme výběrem lineárního modelu s nejlepší predikční schopností. Dokážeme, že v kontextu lineárních modelů je vhodné použít CV(nv) místo metody CV(1), kde nv/n → 1 pro n → ∞. Použijeme studované metody na reálná data z parlamentních a prezi- dentských voleb, které proběhly v České republice v letech 2021 a 2023. 1
In this thesis, the use of cross-validation methods in different areas of statistics is studied. Firstly, the application of leave-one-out cross- validation, CV(1), for bandwidth selection in kernel density estimation and kernel regression tasks is considered. Theoretical findings are demonstrated on simulated data. Then, the selection of a linear model with the best predictive ability is explored. It is illustrated that, in the context of linear models, the use of CV(nv) instead of the leave-one-out approach is advisable, where nv/n → 1 as n → ∞. The studied methods are applied on real data from parliamentary and presidential elections in the Czech Republic in 2021 and 2023. 1