Zobrazit minimální záznam

Úloha odpovídání na otázky v češtině pomocí strojového překladu a mezijazykového přenosu znalostí
dc.contributor.advisorStraka, Milan
dc.creatorMacková, Kateřina
dc.date.accessioned2022-11-21T14:11:09Z
dc.date.available2022-11-21T14:11:09Z
dc.date.issued2022
dc.identifier.urihttp://hdl.handle.net/20.500.11956/178197
dc.description.abstractReading comprehension and question answering are computer science disciplines in the field of natural language processing and information retrieval. Reading comprehension is the ability of the model to read text, process it and understand its meaning. One of its applications is in question answering tasks, which is concerned with building a system that can automatically find an answer in the text to a certain question relied on the content of the text. It is a well-studied task, with huge training datasets in English. However, there are no Czech datasets and models for this task. This work focuses on building reading comprehension and question answering systems for Czech, without requiring any manually annotated Czech training data. Our main focus is to create Czech training and development datasets, create the models for the Czech question answering system using Czech data, and create the models for the Czech question answering system using English data and cross-lingual transfer and compare the results and select the best model. First of all, we translated freely available English question answering datasets SQuAD 1.1 and SQuAD 2.0 to Czech to create training and development datasets. We then trained and evaluated several BERT and XLM-RoBERTa baseline models used for the question answering task in...en_US
dc.description.abstractInformatické zpracování dovednosti čtení s porozuměním a úlohy odpovídání na otázky se zabývají oblastmi zpracování přirozeného jazyka a vyhledávání informací. Čtení s porozuměním je schopnost modelu číst a zpracovat text a porozumět jeho významu. Jednou z jeho aplikací je úloha odpovídání na otázky, které se zabývá vytvořením systému, který dokáže v textu automaticky najít odpověď na určitou otázku, která přímo souvisí s obsahem dokumentu. Pro angličtinu se jedná se o hojně studovanou úlohu, pro kterou existují obrovská tréninková data a spousty modelů. Pro tuto oblast však neexistují žádné modely ani data v češtině. Tato práce se zaměřuje na vytvoření systémů pro úlohy čtení s porozuměním a odpovídání na otázky v českém jazyce, a to bez nutnosti ručně vytvářet česká data. Hlavním cílem je automatické vytvoření českých trénovacích a testovacích dat a vytvoření modelů pro úlohu odpovídání na otázky v češtině. Využívá se existujících anglických dat a modelů za pomoci překladu a mezijazykového přenosu znalostí a následného porovnání výsledků a výběru modelu s nejlepšími výsledky. Nejprve jsme přeložili volně dostupná anglická data pro úlohu odpovídání na otázky SQuAD 1.1 a SQuAD 2.0 do češtiny, aby- chom vytvořili trénovací a testovací data. Poté jsme přetrénovali a vyhodnotili několik základních modelů BERT...cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectQuestion answering|Reading Comprehension|Natural language processing|Crosslingual Transfer|SQuAD|Transformer|BERT|XLM-RoBERTaen_US
dc.subjectÚloha odpovídání na otázky|Čtení s porozuměním|Zpracování přirozeného jazyka|Crosslingual Transfer|SQuAD|Transformer|BERT|XLM-RoBERTacs_CZ
dc.titleQuestion Answering in Czech via Machine Translation and Cross-lingual Transferen_US
dc.typerigorózní prácecs_CZ
dcterms.created2022
dcterms.dateAccepted2022-10-31
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId247891
dc.title.translatedÚloha odpovídání na otázky v češtině pomocí strojového překladu a mezijazykového přenosu znalostícs_CZ
dc.contributor.refereeMareček, David
thesis.degree.nameRNDr.
thesis.degree.levelrigorózní řízenícs_CZ
thesis.degree.disciplineComputational Linguisticsen_US
thesis.degree.disciplineMatematická lingvistikacs_CZ
thesis.degree.programInformatikacs_CZ
thesis.degree.programComputer Scienceen_US
uk.thesis.typerigorózní prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csMatematická lingvistikacs_CZ
uk.degree-discipline.enComputational Linguisticsen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csProspěl/acs_CZ
thesis.grade.enPassen_US
uk.abstract.csInformatické zpracování dovednosti čtení s porozuměním a úlohy odpovídání na otázky se zabývají oblastmi zpracování přirozeného jazyka a vyhledávání informací. Čtení s porozuměním je schopnost modelu číst a zpracovat text a porozumět jeho významu. Jednou z jeho aplikací je úloha odpovídání na otázky, které se zabývá vytvořením systému, který dokáže v textu automaticky najít odpověď na určitou otázku, která přímo souvisí s obsahem dokumentu. Pro angličtinu se jedná se o hojně studovanou úlohu, pro kterou existují obrovská tréninková data a spousty modelů. Pro tuto oblast však neexistují žádné modely ani data v češtině. Tato práce se zaměřuje na vytvoření systémů pro úlohy čtení s porozuměním a odpovídání na otázky v českém jazyce, a to bez nutnosti ručně vytvářet česká data. Hlavním cílem je automatické vytvoření českých trénovacích a testovacích dat a vytvoření modelů pro úlohu odpovídání na otázky v češtině. Využívá se existujících anglických dat a modelů za pomoci překladu a mezijazykového přenosu znalostí a následného porovnání výsledků a výběru modelu s nejlepšími výsledky. Nejprve jsme přeložili volně dostupná anglická data pro úlohu odpovídání na otázky SQuAD 1.1 a SQuAD 2.0 do češtiny, aby- chom vytvořili trénovací a testovací data. Poté jsme přetrénovali a vyhodnotili několik základních modelů BERT...cs_CZ
uk.abstract.enReading comprehension and question answering are computer science disciplines in the field of natural language processing and information retrieval. Reading comprehension is the ability of the model to read text, process it and understand its meaning. One of its applications is in question answering tasks, which is concerned with building a system that can automatically find an answer in the text to a certain question relied on the content of the text. It is a well-studied task, with huge training datasets in English. However, there are no Czech datasets and models for this task. This work focuses on building reading comprehension and question answering systems for Czech, without requiring any manually annotated Czech training data. Our main focus is to create Czech training and development datasets, create the models for the Czech question answering system using Czech data, and create the models for the Czech question answering system using English data and cross-lingual transfer and compare the results and select the best model. First of all, we translated freely available English question answering datasets SQuAD 1.1 and SQuAD 2.0 to Czech to create training and development datasets. We then trained and evaluated several BERT and XLM-RoBERTa baseline models used for the question answering task in...en_US
uk.file-availabilityP
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.codeP
uk.publication-placePrahacs_CZ
dc.date.embargoEndDate31-10-2025
uk.embargo.reasonochrana oprávněných zájmů třetích osob hodných zvláštního zřetelecs
uk.embargo.reasonprotection of the legitimate interests of third parties worthy of special considerationen
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV