Zpřístupnění a správa naskenovaných dokumentů
Accessing and Management of Scanned Documents
bachelor thesis (DEFENDED)
![Document thumbnail](/bitstream/handle/20.500.11956/18580/thumbnail.png?sequence=7&isAllowed=y)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/18580Identifiers
Study Information System: 49866
Collections
- Kvalifikační práce [11266]
Author
Advisor
Referee
Hoffmannová, Petra
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Programming
Department
Department of Software Engineering
Date of defense
9. 9. 2008
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
V této práci rešíme problém digitalizace prevážne historických dokumentu. Cílem práce bylo navrhnout postup samotné digitalizace (scanování) a indexace techto dokumentu se zamerením na vnitrní strukturu dokumentu a na co nejsnažší vyhledávání v techto dokumentech. Pro rešení problému bylo treba navrhnout patricné datové struktury a nástroje pro uložení digitalizovaných dokumentu i pro jejich katalogizaci, a provést analýzu, návrh a implementaci software potrebného pro provedení digitalizace i pro zverejnení techto dokumentu. Navržené postupy a software byly overeny v pilotním projektu, ve kterém bylo dosud digitalizováno a (cástecne) zkatalogizováno približne tri terabyty obrazových dat. Soucástí práce je analýza zkušeností získaných tímto (stále bežícím) pilotním projektem. Dokumenty digitalizované behem tohoto pilotního projektu jsou zverejneny na internetové adrese http://www.depositum.cz.
In this thesis we solve the problem of the digitization mainly historical documents. The goal of the thesis is to design a procedure for the digitization (scanning) and indexing these documents, with a focus on the internal structure of documents and easy searching in those documents. For a solution to the problem, it was necessary to propose appropriate structures and instruments for storing and cataloguing the digitized documents, and perform analysis, design and implementation of software required for the digitization process and for the publication of these documents. The proposed procedures and software were validated in the pilot project. During this (still running) project about three terabytes of image data has been obtained and (partially) indexed. The thesis includes the analysis of the experiences gained from this pilot project. Documents that has been digitalized during this pilot project are available at http://www.depositum.cz.