Extrakcia informácií z reportov o leteckých incidentoch
Information extraction from aviation incident reports
Extrakce informací z reportů o leteckých incidentech
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/196376Identifiers
Study Information System: 235074
Collections
- Kvalifikační práce [11320]
Author
Advisor
Referee
Novák, Michal
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Programming and Software Systems
Department
Institute of Formal and Applied Linguistics
Date of defense
12. 9. 2022
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Slovak
Grade
Excellent
Keywords (Czech)
zpracování přirozeného jazyka|extrakce informací|rozpoznávání pojmenovaných entit|klasifikace textu|bezpečnost letectvaKeywords (English)
natural language processing|information extraction|named entity recognition|text classification|aviation safetyNahlasovanie leteckých incidentov pomocou súhrnných správ - reportov je jedným z dôležitých faktorov majúcich zásluhu na bezpečnosti letectva. Neustále rastúce množ- stvo reportov a nutnosť ich manuálneho spracovania však vyžadujú nasadenie nástrojov, ktoré analýzu pomôžu urýchliť, zjednodušiť a automatizovať. V tejto práci sme na dosia- hnutie spomenutých cieľov vytvorili nástroj avisaf, ktorý prostredníctvom rozpoznávania pomenovaných entít a klasifikácie reportov extrahuje rôzne druhy informácií. V rámci prvej úlohy definujeme vlastné kategórie pomenovaných entít a vyhodnocujeme úspeš- nosti rôznych metód rozpoznávania v porovnaní s manuálne rozpoznanými entitami. Aj napriek menej presnej identifikácii v porovnaní s manuálnym rozpoznávaním dokážeme pomenovanými entitami získať určitú predstavu o štruktúre reportu. Štruktúru reportov ďalej reprezentujeme štyrmi vytvorenými klasifikátormi, ktoré reportom prideľujú prislú- chajúce triedy popisujúce rôzne aspekty incidentov. Vzhľadom na povahu a náročnosť úlohy vytvárame klasifikátory experimentálne, a to porovnaním rôznych klasifikačných algoritmov, rôznych vstupných reprezentácií reportov ako aj modifikáciou ich distribúcie pre lepšie vyváženie vzorových tried. 1
The reporting of aviation incidents using summary reports is one of the important factors contributing to aviation safety. However, the constantly increasing number of reports and the necessity to process them manually requires the deployment of tools that help to speed up, simplify and automate their analysis. To achieve mentioned goals, in this thesis, we have developed avisaf, a tool that extracts information through named entity recognition and report classification. In the first task, we define our own named entity types and evaluate the success rates of different recognition methods against manually recognized entities. Despite less accurate identification compared to manual recognition, we can use named entities to get some ideas about the report structure. We further represent the structure of the reports using four trained classifiers that assign classes describing various aspects of the incidents. Given the nature and difficulty of the task, we create the classifiers experimentally, by comparing various classification algorithms and several report representations as well as by modifying report distributions to better balance sample classes. 1