dc.contributor.advisor | Libovický, Jindřich | |
dc.creator | Kydlíček, Hynek | |
dc.date.accessioned | 2023-07-24T23:40:36Z | |
dc.date.available | 2023-07-24T23:40:36Z | |
dc.date.issued | 2023 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/183054 | |
dc.description.abstract | This work deals with information extraction from Czech News Stories. We focus on four tasks: Publishing server, Article category, Author's textual gender and Publication day of week. Due to the absence of a suitable dataset for the tasks, we present CZEch NEws Classification dataset (CZE-NEC), one of the most extensive Czech classification datasets, composed of news articles from various sources, spanning over twenty years. Tasks are solved using Logistic Regression and pre-trained Transformer encoders. Emphasis is put on fine-tuning methods of the Transformer models, which are evaluated in detail. The models are compared to human evaluators, revealing significant superiority over humans on all tasks. Furthermore, the models are pitted against the commercial large language model GPT-3, outperforming it on half of the tasks, despite GPT-3 being significantly larger. Our work sets strong baseline results on CZE-NEC allowing for further research in the field. | en_US |
dc.description.abstract | Tato práce se zabývá extrakcí informací z českých zpravodajských článků. Zaměřujeme se na čtyři úlohy: vydavatelský server, kategorie článku, tex- tový gender autora a den vydání článk. Vzhledem k absenci vhodné da- tové sady pro tyto úlohy představujeme datovou sadu CZEch NEws Clas- sification (CZE-NEC), jeden z největších českých klasifikačních datasetů, který je složen ze zpravodajských článků z různých zdrojů pokrývající ob- dobí dvaceti let. Úlohy jsou řešeny pomocí Lineární regrese a předtrénovaných Transformerů. Důraz je kladen na metody dotrénování Transformerů, které jsou podrobně vyhodnoceny. Modely jsou porovnány s lidskými hodnotiteli, kteří zaostávají za modely na všech úlohách. Dále jsou modely porovnány s komerčním velkým jazykovým modelem GPT-3, který je překonán na polov- ině úloh, přestože je GPT-3 výrazně větší. Naše práce představuje silný startovní výsledek na sadě CZE-NEC, který umožňuje další výzkum v této oblasti. | cs_CZ |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | News|Information Extraction|Czech News Classification Dataset|NLP|BERT | en_US |
dc.subject | Zpravodajství|Extrakce informací|Český zpravodajský klasifikační dataset|NLP|BERT | cs_CZ |
dc.title | Implicit information extraction from news stories | en_US |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2023 | |
dcterms.dateAccepted | 2023-06-29 | |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 252051 | |
dc.title.translated | Získávání implicitních infomací ze zpravodajských textů | cs_CZ |
dc.contributor.referee | Helcl, Jindřich | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | Informatika se specializací Umělá inteligence | cs_CZ |
thesis.degree.discipline | Computer Science with specialisation in Artificial Intelligence | en_US |
thesis.degree.program | Informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Informatika se specializací Umělá inteligence | cs_CZ |
uk.degree-discipline.en | Computer Science with specialisation in Artificial Intelligence | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Tato práce se zabývá extrakcí informací z českých zpravodajských článků. Zaměřujeme se na čtyři úlohy: vydavatelský server, kategorie článku, tex- tový gender autora a den vydání článk. Vzhledem k absenci vhodné da- tové sady pro tyto úlohy představujeme datovou sadu CZEch NEws Clas- sification (CZE-NEC), jeden z největších českých klasifikačních datasetů, který je složen ze zpravodajských článků z různých zdrojů pokrývající ob- dobí dvaceti let. Úlohy jsou řešeny pomocí Lineární regrese a předtrénovaných Transformerů. Důraz je kladen na metody dotrénování Transformerů, které jsou podrobně vyhodnoceny. Modely jsou porovnány s lidskými hodnotiteli, kteří zaostávají za modely na všech úlohách. Dále jsou modely porovnány s komerčním velkým jazykovým modelem GPT-3, který je překonán na polov- ině úloh, přestože je GPT-3 výrazně větší. Naše práce představuje silný startovní výsledek na sadě CZE-NEC, který umožňuje další výzkum v této oblasti. | cs_CZ |
uk.abstract.en | This work deals with information extraction from Czech News Stories. We focus on four tasks: Publishing server, Article category, Author's textual gender and Publication day of week. Due to the absence of a suitable dataset for the tasks, we present CZEch NEws Classification dataset (CZE-NEC), one of the most extensive Czech classification datasets, composed of news articles from various sources, spanning over twenty years. Tasks are solved using Logistic Regression and pre-trained Transformer encoders. Emphasis is put on fine-tuning methods of the Transformer models, which are evaluated in detail. The models are compared to human evaluators, revealing significant superiority over humans on all tasks. Furthermore, the models are pitted against the commercial large language model GPT-3, outperforming it on half of the tasks, despite GPT-3 being significantly larger. Our work sets strong baseline results on CZE-NEC allowing for further research in the field. | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | 1 | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |