Generating Drum Kit Samples using Machine Learning
Generování vzorků bicích souprav pomocí strojového učení
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/192871Identifikátory
SIS: 261624
Kolekce
- Kvalifikační práce [11326]
Autor
Vedoucí práce
Oponent práce
Helcl, Jindřich
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
5. 9. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
strojové učení|generování hudby|elektronická hudbaKlíčová slova (anglicky)
machine learning|music generation|electronic musicV této práci jsme navrhli nástroj pro interaktivní generování vzorků pro jednotlivé údery bicích nástrojů (one-shot samples) pomocí variačních autoenkodérů (VAE), v kontextu produkce elektronické hudby. Prozkoumali jsme reprezentace používané pro úlohu generování zvuku a vybrali dvě nejlépe vyhovující. Dále jsme sesbírali vlastní datovou sadu téměř 16,000 volně dostupných vzorků, které jsme setřídili do 9 kategorií bicích nástrojů. Sérií pokusů jsme pak došli k modelu, který rekonstruuje a generuje vzorky s postačující kvalitou, ačkoliv stále obsahují jeden šumový artefakt. Na základě pokusů s PCA a konvexními kombinacemi jsme zjistili, že natrénovaný latentní prostor má interpretovatelnou a tedy ovladatelnou topologii.
In this thesis, we designed an interactive generative tool based on the Variational Autoencoder (VAE) to synthesise new and interesting drum one-shot samples for electronic music production. We researched audio representations used in audio generation tasks and selected two that suited our settings the best. Furthermore, we created our own dataset of almost 16,000 freely available samples organised into 9 drum categories. Through a series of experiments, we were able to achieve a model that was reconstructing and generating quality samples; however, they contained a specific noise artefact we could not get rid of. Based on the results of PCA and convex combinations methods we found out that the latent space has "meaningful" properties.