Efficient representation of k-mer sets
Efektivní reprezentace množin k-merů
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/184307Identifikátory
SIS: 249202
Kolekce
- Kvalifikační práce [11242]
Autor
Vedoucí práce
Konzultant práce
Břinda, Karel
Oponent práce
Kolman, Petr
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Informatický ústav Univerzity Karlovy
Datum obhajoby
7. 9. 2023
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Dobře
Klíčová slova (česky)
množiny k-merů|nejkratší nadřetězec|bioinformatika|hladový algoritmusKlíčová slova (anglicky)
k-mer sets|shortest superstring|bioinformatics|greedy algorithmIn this thesis we explore and compare various methods for efficient k-mer set representation. We evaluate traditional de Bruijn graph representation techniques against greedy approximation algorithms for the Shortest Superstring Problem. We describe the linear- time implementation of the well-known Greedy algorithm by Ukkonen [1990] and extend it to another related algorithm, called TGreedy. In addition, we test selected algorithms on a bacterial genome and pangenome to highlight the differences in the size of their output representation and the computational resources used, providing an insight into their respective efficiencies.