Creating 3D Diorama from Single Image with Deep Learning
Vytvoření 3D dioramatu z jednoho obrázku pomocí hlubokého učení
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/181877Identifikátory
SIS: 254039
Kolekce
- Kvalifikační práce [11327]
Autor
Vedoucí práce
Konzultant práce
Preisler, Martin
Oponent práce
Holeňa, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Katedra softwaru a výuky informatiky
Datum obhajoby
12. 6. 2023
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
hloubka|diorama|Blender|hluboké učení|panoptická segmentace|odhad hloubkyKlíčová slova (anglicky)
depth|diorama|Blender|deep learning|panoptic segmentation|monocular depth estimationCílem této práce je automatizovat proces generování 3D dioramatických scén z jedné fotky. Po rozsáhlé analýze stávajících přístupů jsme se rozhodli zkombinovat výstup modelů hlubokého učení pro panoptickou segmentaci a odhad hloubky. V průběhu práce jsme narazili na určitá omezení v modelu odhadujícím hloubku, která jsme vyřešili finetunováním na novém datasetu. Výsledné diorama konstruujeme tak, že rozdělíme objekty identifikované seg- mentací do samostatných obrázků s průhledným pozadím. Tyto obrázky pak umístíme do 3D scény tak, aby jejich vzájemná vzdálenost odpovídala odhad- nuté hloubce jednotlivých objektů. Naše řešení jsme implementovali formou add-onu pro Blender. Diplomová práce byla vypracována ve spolupráci s fir- mou polygoniq.
The goal of this thesis is to automate the process of generating 3D dio- rama scenes from a single image. After an extensive analysis of existing approaches, we propose to combine the output of deep learning models for panoptic segmentation and monocular depth estimation. We encountered some limitations of the available depth model for our use case, which we addressed through fine-tuning. To construct the diorama, we separate the objects identified by segmentation into distinct images with transparent back- grounds. These images are placed in a 3D scene, arranged in a way that reflects the estimated depth of each object. We implemented our method as an add-on for Blender. The thesis was developed in collaboration with a company called polygoniq.