Using convolutional neural networks to detect protein-ligand binding sites
Využití konvolučních neuronových sítí pro detekci protein-ligand vazebných míst
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/197420Identifikátory
SIS: 268603
Kolekce
- Kvalifikační práce [11321]
Autor
Vedoucí práce
Oponent práce
Škoda, Petr
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
10. 2. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
protein|bioinformatika|strojové učení|cnnKlíčová slova (anglicky)
protein|bioinformatics|machine learning|cnnPoužití konvolučních neuronových sítí (CNN) pro vysokorozměrná data, jako jsou obrázky, ukázalo některé slibné výsledky, ale má problémy s featurami bez prostorové korelace. V této práci jsem otestoval zjednodušenou verzi modelu REFINED (REp- resentation of Features as Images with Neighborhood Dependencies) a porovnával její výkon na datasetu detekce vazebného místa ligandu. Dále jsem se pokusil najít korelaci mezi prediktivní silou CNN a použitou metodou pro transformaci vstupních vektorů do obrázků. Nenašel jsem žádný výsledek, podporující hypotézu, že by REFINED mělo lepší prediktivní sílu než nejmo-dernější přístupy nebo jenom CNN využívající matice s náhodně přiřazenými pozicemi prvků. 1
Using convolutional neural networks (CNN) for high dimensional data such as images has shown some promising results, but it has issues with features without spatial correla- tion. I test a streamlined version of the REFINED (REpresentation of Features as Images with NEighborhood Dependencies) model and compare its performance on a ligand bind- ing site detection dataset. I explore the correlation between the CNN performance and the technique used to transform input vectors into images. I find no significant evidence supporting that REFINED has better predictive power than state-of-the-art approaches or CNNs using matrices with randomly assigned feature positions. 1