Model-based Clustering of Multivariate Longitudinal Data of a Mixed Type

Vávra, Jan

Modelově založené shlukování vícerozměrných longitudinálních dat smíšeného typu

dizertační práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (349.4Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/179843

Identifikátory

SIS: 201815

Oponent práce

Frühwirth-Schnatter, Sylvia

Hlávka, Zdeněk

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Pravděpodobnost a statistika, ekonometrie a finanční matematika

Katedra / ústav / klinika

Katedra pravděpodobnosti a matematické statistiky

Datum obhajoby

9. 1. 2023

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Prospěl/a

Klíčová slova (česky)

modelově založené shlukování|MCMC|longitudinální data|GLMM|smíšený typ

Klíčová slova (anglicky)

model-based clustering|MCMC|longitudinal data|GLMM|mixed type

Modelově založené shlukování vícerozměrných longitudinálních dat smíšeného typu Jan Vávra 3. října 2022 Abstrakt Mnoho dnešních studií sbírá data opakovaně na těch samých jedin- cích po předem vymezenou časovou dobu. Takto vzniklá longitudinální data jsou navíc často tvořena číselnými, čítacími, binárními, ordinálními nebo obecně kategoriálními hodnotami. Je zde navrženo několik variant statistických modelů schopných modelovat takováto často velmi korelo- vaná data sdruženě. Metodologie modelově založeného shlukování je zde použita pro odhalení skryté heterogenity v datech tím, že jedince roztřídí do několika skupin specifických vlastností. Generativní model je zde vy- tvořen za bayesovského přístupu a jsou zde vyvinuty MCMC metody pro jeho odhad. Vlastnosti stvořených odhadů jsou podrobeny simulační stu- dii. Vyvinutá metodologie je aplikovaná na problémy z reálného prostředí, např. data z lékařské studie o pacientech trpících primární biliární cho- langitidou (PBC) či ekonomický dataset o tisících českých domácnostech sledovaných od roku 2005 (databáze EU-SILC). 1

Abstrakt (anglicky)

Model-based Clustering of Multivariate Longitudinal Data of a Mixed Type Jan Vávra October 3, 2022 Abstract In many nowadays studies, the data are collected repeatedly on the same units over a certain period of time. Moreover, such longitudinal data are composed of numeric values, count variables, binary indicators, ordered or nominal categories. A few variants of statistical model capa- ble of modelling such often highly correlated data jointly are introduced. On top of that, a methodology of model-based clustering is adapted to such models to discover hidden heterogeneity within the data by dividing units into clusters of specific characteristics. Bayesian approach is taken, generative model is proposed and MCMC methodology is developed for estimation. A simulation study verifying the estimation properties is con- ducted. The methodology is applied to real datasets such as medical data on patients suffering from primary biliary cholangitis (PBC) or econom- ical dataset consisting of thousands of Czech households followed since 2005 (EU-SILC database). 1

Citace dokumentu

Metadata

Zobrazit celý záznam