Algonauts challenge 2023: predicting human fMRI activity in response to visual stimulation
Soutež Algonauts 2023: predikce lidské fMRI aktivity při stimulaci vizuálními stimuli
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/188490Identifikátory
SIS: 256920
Kolekce
- Kvalifikační práce [11326]
Autor
Vedoucí práce
Konzultant práce
Baroni, Luca
Oponent práce
Bojar, Ondřej
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Katedra softwaru a výuky informatiky
Datum obhajoby
13. 2. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
hluboké učení|predikce fMRI|vizualní stimuly|vision transformersKlíčová slova (anglicky)
deep learning|fMRI prediction|visual stimuli|vision transformersV této diplomové práci zkoumáme využití předtrénovaných hlubokých neuronových sítí, zejména Vision Transformers (ViT), pro predikce lidské fMRI aktivity při stimu- laci vizuálními stimuli. Dataset z Algonauts Challenge 2023, která slouží jako rozsáhlý standard pro data fMRI lidského mozku, nám umožňuje hodnotit výkon ViT ve srovnání s etablovanými architekturami CNN, jako jsou VGG a ResNet. Naše studie zdůrazňuje složitost tohoto úkolu, zejména při přesném modelování různorodých oblastí celé vizuální kůry. Identifikujeme konkrétní vrstvy ViT, které jsou v souladu s hierarchickým zpra- cováním mozku a ukazují se jako nejpředpovědnější. Jedním z omezení, na které jsme narazili u předtrénovaného ViT, je jeho snížená adaptabilita kvůli vrozené variabilitě subjektů. Toto omezení zdůrazňuje výzvu ve vývoji jediného modelu, který je univer- zálně účinný pro různé jedince. Abychom toto řešili, implementujeme iterativní strategii trénování, začínající vrstvami, které fungují nejlépe napříč všemi subjekty, následované jemným laděním pro specifické vizuální oblasti jednotlivých subjektů. Navzdory těmto snahám se účinnost ViT liší; u některých subjektů dosahuje uspokojivých výsledků, ale u jiných se potýká, zejména ve word-selectivnich oblastech. Přidání textových dat ke vstupu vede ke zlepšení výkonu modelu v...
In this thesis, we investigate the application of pretrained Deep Neural Networks, par- ticularly Vision Transformers (ViT), for predicting human fMRI activity in response to visual stimulation. The Algonauts Challenge 2023 dataset, serving as a large-scale bench- mark of human fMRI data, allows us to assess the performance of ViT in comparison with established CNN architectures like VGG and ResNet. Our study highlights the complex- ity of this task, especially in accurately modeling the diverse regions of the full visual cortex. We identify specific ViT layers that align with the brain's hierarchical processing and prove to be the most predictive. However, one of the limitations we encounter with pretrained ViT is its reduced adaptability due to inherent subject variability. This limi- tation underscores the challenge in developing a single model that is universally effective across different individuals. To address this, we implement an iterative training strategy, starting with the layers that perform best across all subjects, followed by fine-tuning for specific visual areas in individual subjects. Despite these efforts, the effectiveness of ViT varies; it performs satisfactorily in some subjects but struggles in others, particu- larly in word-selective regions. The incorporation of textual data...