Kompresia biologických sekvencií
Compression of biological sequences
Kompresia biologických sekvencií
diplomová práce (OBHÁJENO)
![Náhled dokumentu](/bitstream/handle/20.500.11956/42192/thumbnail.png?sequence=8&isAllowed=y)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/42192Identifikátory
SIS: 121003
Kolekce
- Kvalifikační práce [11266]
Autor
Vedoucí práce
Oponent práce
Dvořák, Tomáš
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Teoretická informatika
Katedra / ústav / klinika
Katedra softwaru a výuky informatiky
Datum obhajoby
3. 9. 2012
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Slovenština
Známka
Výborně
Klíčová slova (česky)
bioinformatika, kompresia, DNA, SAM formátKlíčová slova (anglicky)
bioinformatics, compression, DNA, SAM formatObjem dát získavaných sekvenovacími technológiami novej generácie rastie podstatne rýchlejšie ako kapacity úložných médií. Výstupy sekvenátorov okrem samotných prečítaných krátkych úsekov DNA obsahujú ďalšie informácie napr. o spoľahlivosti/kvalite čítania každého symbolu DNA. Takéto dáta je treba ďalej uchovávať aj po zostavení sekvencie kompletného genómu. Štandardným formátom pre ukladanie dát v tejto oblasti je formát SAM (Sequence Alignment/Mapping Format) a jeho binárna komprimovaná verzia BAM, ktorá umožňuje náhodný prístup k svojmu obsahu. V tejto práci popíšeme konštrukciu lepšej kompresnej schémy pre bezstratovú kompresiu súborov vo formáte SAM/BAM. Táto kompresná schéma dosahuje podstatne menšiu veľkosť komprimovaného súboru ako pri formáte BAM. Navyše však zostáva zachovaná možnosť náhodného prístupu k dátam v komprimovanom súbore. Implementácia tejto kompresnej schémy je platformovo nezávislá a umožňuje jednoduchú konfiguráciu použitých kompresných metód. Navrhovali sme ju tak, aby bola v budúcnosti možná jej jednoduchá rozšíriteľnosť - vďaka tomu bude možné reagovať na zmeny v sekvenovacích platformách, ako aj na zmeny vo formáte SAM.
Volumes of data obtained from the next generation sequencing platforms is growing faster than the available capacity of storage media. Sequencers mainly produce short reads of DNA. However, output of the sequencing machines also contains other information, for example information about read reliability/quality. This data must be archived even after successful complete genome assembly. Standard file format used for this type of data is format SAM (Sequence Alignment/Mapping Format) and its binary compressed version BAM. In this thesis we describe the construction of a better lossless compression scheme for compression of files in the SAM/BAM format. This compression scheme provides better compression ratios than the BAM format. In addition, random access to data in the compressed file is retained. Implementation of this compression scheme is platform independent and allows simple configuration of the compression process. Implementation also offers easy extensibility. Thanks to this, we will be able to respond to changes in current sequencing platforms as well as to changes in the SAM format.