Model-based Clustering of Multivariate Longitudinal Data of a Mixed Type
Modelově založené shlukování vícerozměrných longitudinálních dat smíšeného typu
dizertační práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/179843Identifikátory
SIS: 201815
Kolekce
- Kvalifikační práce [11244]
Autor
Vedoucí práce
Oponent práce
Frühwirth-Schnatter, Sylvia
Hlávka, Zdeněk
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Pravděpodobnost a statistika, ekonometrie a finanční matematika
Katedra / ústav / klinika
Katedra pravděpodobnosti a matematické statistiky
Datum obhajoby
9. 1. 2023
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Prospěl/a
Klíčová slova (česky)
modelově založené shlukování|MCMC|longitudinální data|GLMM|smíšený typKlíčová slova (anglicky)
model-based clustering|MCMC|longitudinal data|GLMM|mixed typeModelově založené shlukování vícerozměrných longitudinálních dat smíšeného typu Jan Vávra 3. října 2022 Abstrakt Mnoho dnešních studií sbírá data opakovaně na těch samých jedin- cích po předem vymezenou časovou dobu. Takto vzniklá longitudinální data jsou navíc často tvořena číselnými, čítacími, binárními, ordinálními nebo obecně kategoriálními hodnotami. Je zde navrženo několik variant statistických modelů schopných modelovat takováto často velmi korelo- vaná data sdruženě. Metodologie modelově založeného shlukování je zde použita pro odhalení skryté heterogenity v datech tím, že jedince roztřídí do několika skupin specifických vlastností. Generativní model je zde vy- tvořen za bayesovského přístupu a jsou zde vyvinuty MCMC metody pro jeho odhad. Vlastnosti stvořených odhadů jsou podrobeny simulační stu- dii. Vyvinutá metodologie je aplikovaná na problémy z reálného prostředí, např. data z lékařské studie o pacientech trpících primární biliární cho- langitidou (PBC) či ekonomický dataset o tisících českých domácnostech sledovaných od roku 2005 (databáze EU-SILC). 1
Model-based Clustering of Multivariate Longitudinal Data of a Mixed Type Jan Vávra October 3, 2022 Abstract In many nowadays studies, the data are collected repeatedly on the same units over a certain period of time. Moreover, such longitudinal data are composed of numeric values, count variables, binary indicators, ordered or nominal categories. A few variants of statistical model capa- ble of modelling such often highly correlated data jointly are introduced. On top of that, a methodology of model-based clustering is adapted to such models to discover hidden heterogeneity within the data by dividing units into clusters of specific characteristics. Bayesian approach is taken, generative model is proposed and MCMC methodology is developed for estimation. A simulation study verifying the estimation properties is con- ducted. The methodology is applied to real datasets such as medical data on patients suffering from primary biliary cholangitis (PBC) or econom- ical dataset consisting of thousands of Czech households followed since 2005 (EU-SILC database). 1