Automatická klasifikace smluv pro portál HlidacSmluv.cz
Automated contract classification for portal HlidacSmluv.cz
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/121246Identifikátory
SIS: 206144
Kolekce
- Kvalifikační práce [11217]
Autor
Vedoucí práce
Konzultant práce
Vidová Hladká, Barbora
Oponent práce
Holub, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
16. 9. 2020
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
e-government, strojové učenı́, transfer learning, multilabel klasifikace, klasifikace dokumentůKlíčová slova (anglicky)
e-government, machine learning, transfer learning, multi-label classification, document classificationRegistr smluv je veřejná databáze obsahující smlouvy uzavřené institucemi veřejné správy. Vzhledem k množství publikovaných dokumentů je však analýza dat problema- tická. Cílem práce je za použití metod strojového učení naleznout postup pro rozdělení smluv do kategorií podle oblastí (realitní služby, stavitelství a podobně) a tento postup implementovat pro použití na webovém portálu Hlídač státu. Komplikaci představuje velké množství kategorií a fakt, že není k dispozici žádná sada již označených smluv. 1
The Contracts Register is a public database containing contracts concluded by public institutions. Due to the number of documents in the database, data analysis is proble- matic. The objective of this thesis is to find a machine learning approach for sorting the contracts into categories by their area of interest (real estate services, construction, etc.) and implement the approach for usage on the web portal Hlídač státu. A large number of categories and a lack of a tagged dataset of contracts complicate the solution. 1