The small sample size problem in gene expression tasks
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/70410Identifikátory
SIS: 141476
Kolekce
- Kvalifikační práce [6673]
Autor
Vedoucí práce
Oponent práce
Kalina, Jan
Fakulta / součást
Farmaceutická fakulta v Hradci Králové
Obor
Farmacie
Katedra / ústav / klinika
Katedra biofyziky a fyzikální chemie
Datum obhajoby
2. 6. 2015
Nakladatel
Univerzita Karlova, Farmaceutická fakulta v Hradci KrálovéJazyk
Angličtina
Známka
Výborně
Univerzita Karlova v Praze Farmaceutická fakulta v Hradci Králové Katedra biofyziky a fyzikální chemie Kandidát: Savvas Athanasiadis Školitel: Jurjen Duintjer Tebbens Název diplomové práce: The small sample size problem in gene expression tasks Práce se zabývá klasifikací genů do nádorových typů na základě je- jich genových expresí. Počet proměnných (aminokyselin), které mají být zk- oumány, je typicky velmi vysoký (v tisících), zatímco je drahé a časově náročné analyzovat velký počet genů; obvykle maximálně desítky z nich jsou k dispozici. Kombinace malého počtu vzorku s velkým počtem proměnných činí standardní metody statistické klasifikace nevhodnými. Práce se zaměřuje na modifikaci klasické metody klasifikace, Fisherova lineární diskriminační analýza, pro případ, kde počet vzorků je menší než počet proměnných. Navrhuje zlepšenou strategii pro testování této modi- fikace a to metodou křížové validace typu leave-one-out. Pomocí aktualizace zúčastněných kovariančních matic s maticemi nízké hodností, lze dosáhnout řádové snížení výpočetních nákladů v metodě křížové validace. Požadavky na paměť jsou též sníženy.
Charles University in Prague Faculty of Pharmacy in Hradec Králové Department of Biophysics and Physical Chemistry Candidate: Savvas Athanasiadis Supervisor: Jurjen Duintjer Tebbens Title of diploma thesis: The small sample size problem in gene expression tasks The thesis addresses classification of genes to tumor types based on their gene expression signatures. The number of variables (amino-acids) to be inves- tigated is typically very high (in the thousands) while it is expensive and time- consuming to analyze a high number of genes; usually at most tens of them are available. The combination of a small sample size with a large number of variables makes standard statistical classification methods inappropriate. The thesis focuses on a modification of a standard classification method, Fisher's linear discriminant analysis, for the case where the number of samples is smaller than the number of variables. It proposes an improved strategy to test this modified method with leave-one-out cross validation. Using so- called low rank updates of the involved covariance matrices, the computational costs of the cross validation process can be reduced by an order of magnitude. Memory demands are reduced as well.