Automatická klasifikace smluv pro portál HlidacSmluv.cz
Automated contract classification for portal HlidacSmluv.cz
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/121246Identifiers
Study Information System: 206144
Collections
- Kvalifikační práce [11217]
Author
Advisor
Consultant
Vidová Hladká, Barbora
Referee
Holub, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Software Systems
Department
Department of Software Engineering
Date of defense
16. 9. 2020
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
e-government, strojové učenı́, transfer learning, multilabel klasifikace, klasifikace dokumentůKeywords (English)
e-government, machine learning, transfer learning, multi-label classification, document classificationRegistr smluv je veřejná databáze obsahující smlouvy uzavřené institucemi veřejné správy. Vzhledem k množství publikovaných dokumentů je však analýza dat problema- tická. Cílem práce je za použití metod strojového učení naleznout postup pro rozdělení smluv do kategorií podle oblastí (realitní služby, stavitelství a podobně) a tento postup implementovat pro použití na webovém portálu Hlídač státu. Komplikaci představuje velké množství kategorií a fakt, že není k dispozici žádná sada již označených smluv. 1
The Contracts Register is a public database containing contracts concluded by public institutions. Due to the number of documents in the database, data analysis is proble- matic. The objective of this thesis is to find a machine learning approach for sorting the contracts into categories by their area of interest (real estate services, construction, etc.) and implement the approach for usage on the web portal Hlídač státu. A large number of categories and a lack of a tagged dataset of contracts complicate the solution. 1