Dolování dat z příchozích zpráv elektronické pošty
Data mining from incoming e-mail messages
diplomová práce (NEOBHÁJENO)
![Náhled dokumentu](/bitstream/handle/20.500.11956/21526/thumbnail.png?sequence=7&isAllowed=y)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/21526Identifikátory
SIS: 136490
Kolekce
- Kvalifikační práce [11264]
Autor
Vedoucí práce
Oponent práce
Hnětynka, Petr
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Softwarové systémy
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
7. 9. 2009
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Neprospěl
Klíčová slova (česky)
e-mail, workshop, text-mining, třídění, automatizace, parsováníKlíčová slova (anglicky)
e-mail, workshop, text-mining, automatization, extractionV předložené práci studujeme možnosti automatického třídění příchozí emailové komunikace. Naším hlavním cílem je rozpoznání informací o nadcházejících workshopech a konferencích, nabídkách práce a vydávaných knihách. Snažíme se vyvinout nástroj, který informace vydoluje z dat získaných z oborových konferencí. Nabídky v konferencích přicházejí ve formě html, rtf, nebo prostého textu, ale informace v nich je zapsána v běžném jazyce. Text{miningovými metodami získáváme informace z běžného textu a ukládáme je ve strukturované formě, kterou je možné jednoduše strojově zpracovávat. Zkoumáme zpusob zpracování pošty člověkem a následně tyto poznatky aplikujeme při tvorbě systému. V průběhu práce řešíme problémy se samotným získáním zpráv, rozpoznáním jazyka a kódování a rozpoznáním typu zprávy. Informace, kterou ze zprávy potřebujeme získat se různí v závislosti na typu zprávy a události, které se týká. Teprve po rozpoznání nosné informace ve zprávě jsme schopni vydolovat data pro zjištěný typ události. Na závěr ukládáme získané znalosti do databáze, která umožňuje rychlou interakci s uživatelem.
In the present work we study possibilities of automatic sorting of incoming email communication. Our primary goal is to distinguish information about oncoming workshops and conferences, job off ers and published books. We are trying to develop tool to mine the information from data from professional mailing lists. Off ers in the mailing lists come in html, rtf or plain text format, but the information in it is written in common spoken language. We are developing the system so it will use text mining methods to extract the information and save it structured form. Than we will be able to work with it. We are examining the handling of the mails by user and apply the knowledge in the development. We solve the problems with obtaining of the messages, distinguishing language and encoding and estimating the type of message. After recognition of the bearing information we are able to mine data. In the end we save the mined information to the database, which allows us to display it in well{arranged way, sort and search according to the user needs.