MLOSINT: Classifying Vehicle Losses in Ukraine
MLOSINT: Klasifikace ztrát techniky na Ukrajině
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/188553Identifiers
Study Information System: 266568
Collections
- Kvalifikační práce [18150]
Author
Advisor
Referee
Střítecký, Vít
Faculty / Institute
Faculty of Social Sciences
Discipline
International Security Studies with specialisation in Security, Technology and Society
Department
Department of Security Studies
Date of defense
31. 1. 2024
Publisher
Univerzita Karlova, Fakulta sociálních vědLanguage
English
Grade
Excellent
Keywords (Czech)
OSINT, Strojové učení, Klasifikace obrazu, Válka na Ukrajině, Data, Sledování ztrátKeywords (English)
OSINT, Machine Learning, Image Classification, Ukraine War, Data, Loss TrackingTato práce se zabývá možnostmi využití strojového učení (ML) při analýze zpravodajských informací z otevřených zdrojů (OSINT). Vzhledem k tomu, že data jsou společným vstupem obou oborů, jsou data hlavní optikou, kterou je téma zkoumáno. Pro pochopení celého procesu nasazení ML modelu od sběru dat až po jejich analýzu byl vycvičen a otestován obrazový klasifikátor ztrát ruských vozidel při invazi na Ukrajinu. Tento klasifikátor, vycvičený na více než 50 000 obrázcích z databáze WarSpotting, dosáhl slušné přesnosti 79 % na tréninkových datech pěti nejpočetnějších kategorií snímků. Na testovacích datech z pozdějšího období klesl výkon na 62 %. Jedno z nabízených vysvětlení je, že statické frontové linie a rozšíření dronů vedly k tomu, že většina nedávných snímků byla pořízena ze vzduchu, zatímco tréninková data byla pořízena převážně ze země. Tento výsledek ukázal, jak nevyhnutelné změny i ve zdánlivě dobře spravovaných datech mohou vést k nízkému výkonu ML modelů při nasazení. Kromě změn na bojišti vyšly najevo i hlubší problémy s daty, včetně kaskádových účinků raných rozhodnutí o procesování dat a jejich nevyváženosti. Celkově lze říci, že současné metody klasifikace obrazu nefungují dobře na dostupných nedokonalých datech.
This thesis explores the potential of applying machine learning (ML) to assist with open source intelligence (OSINT) analysis. As the shared input of both disciplines, data is the primary lens through which the topic is examined. To understand the entire process of deploying an ML model from data collection to analysis, an image classifier of Russian vehicle losses in the invasion of Ukraine was trained and tested. Trained on a dataset of over 50,000 labelled images from the WarSpotting database, the classifier achieved a decent accuracy of 79% on evaluation data on the five most populous categories of images. On testing data from a later period, the performance dropped to 62%. One explanation offered is that the static frontlines and the prominence of drones led to most of the recent imagery being aerial, while the training data was captured mainly from the ground. That result demonstrated how inevitable changes, even in seemingly well-curated data, can lead to the low performance of ML models in deployment. Beyond changes on the battlefield, deeper data issues came to light, including the cascading effects of early data management decisions and dataset imbalance. Overall, current image classification methods do not work well on the noisy data available.