Extrakcia informácií z reportov o leteckých incidentoch
Information extraction from aviation incident reports
Extrakce informací z reportů o leteckých incidentech
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/196376Identifikátory
SIS: 235074
Kolekce
- Kvalifikační práce [11320]
Autor
Vedoucí práce
Oponent práce
Novák, Michal
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Programování a softwarové systémy
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
12. 9. 2022
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Slovenština
Známka
Výborně
Klíčová slova (česky)
zpracování přirozeného jazyka|extrakce informací|rozpoznávání pojmenovaných entit|klasifikace textu|bezpečnost letectvaKlíčová slova (anglicky)
natural language processing|information extraction|named entity recognition|text classification|aviation safetyNahlasovanie leteckých incidentov pomocou súhrnných správ - reportov je jedným z dôležitých faktorov majúcich zásluhu na bezpečnosti letectva. Neustále rastúce množ- stvo reportov a nutnosť ich manuálneho spracovania však vyžadujú nasadenie nástrojov, ktoré analýzu pomôžu urýchliť, zjednodušiť a automatizovať. V tejto práci sme na dosia- hnutie spomenutých cieľov vytvorili nástroj avisaf, ktorý prostredníctvom rozpoznávania pomenovaných entít a klasifikácie reportov extrahuje rôzne druhy informácií. V rámci prvej úlohy definujeme vlastné kategórie pomenovaných entít a vyhodnocujeme úspeš- nosti rôznych metód rozpoznávania v porovnaní s manuálne rozpoznanými entitami. Aj napriek menej presnej identifikácii v porovnaní s manuálnym rozpoznávaním dokážeme pomenovanými entitami získať určitú predstavu o štruktúre reportu. Štruktúru reportov ďalej reprezentujeme štyrmi vytvorenými klasifikátormi, ktoré reportom prideľujú prislú- chajúce triedy popisujúce rôzne aspekty incidentov. Vzhľadom na povahu a náročnosť úlohy vytvárame klasifikátory experimentálne, a to porovnaním rôznych klasifikačných algoritmov, rôznych vstupných reprezentácií reportov ako aj modifikáciou ich distribúcie pre lepšie vyváženie vzorových tried. 1
The reporting of aviation incidents using summary reports is one of the important factors contributing to aviation safety. However, the constantly increasing number of reports and the necessity to process them manually requires the deployment of tools that help to speed up, simplify and automate their analysis. To achieve mentioned goals, in this thesis, we have developed avisaf, a tool that extracts information through named entity recognition and report classification. In the first task, we define our own named entity types and evaluate the success rates of different recognition methods against manually recognized entities. Despite less accurate identification compared to manual recognition, we can use named entities to get some ideas about the report structure. We further represent the structure of the reports using four trained classifiers that assign classes describing various aspects of the incidents. Given the nature and difficulty of the task, we create the classifiers experimentally, by comparing various classification algorithms and several report representations as well as by modifying report distributions to better balance sample classes. 1