Zobrazit minimální záznam

Způsoby segmentace vstupu pro účely simultánního strojového překladu mluvené řeči
dc.contributor.advisorBojar, Ondřej
dc.creatorRyšlink, Václav
dc.date.accessioned2022-10-04T17:01:02Z
dc.date.available2022-10-04T17:01:02Z
dc.date.issued2022
dc.identifier.urihttp://hdl.handle.net/20.500.11956/175724
dc.description.abstractSegmentation methods are an essential part of the simultaneous machine translation process because, in the ideal case, they split the input into chunks whose translation is independent of any forthcoming context. Furthermore, the optimal splitting should also ensure that the segments with the previous characterization have minimal lengths. However, there is still no agreement about the rules that should produce such an optimal splitting. Therefore, we started with the annotation of the ESIC dataset by simulating a perfect human interpreter with an infinite amount of time and resources. Then we proposed multiple segmentation methods that we compared to each other in terms of segments' lengths, counts, and statistics of the most frequently split types of words. Apart from the segmentation methods, we also implemented and analyzed two variants of neural machine translation models - one trained solely on complete sentences and the other finetuned with partial translations. Finally, we evaluated the translation quality and delay of segments produced by splitting methods with the SLTev evaluation toolkit and discussed the effect of both machine translation models on the results.en_US
dc.description.abstractSegmentační metody jsou důležitou součástí při simultánním strojovém překladu, jelikož by v ideálním případě měly být zodpovědné za dělení vstupních vět na takové úseky, k jejichž překladům není potřeba znát kontext, který se dostaví až po nich. Optimální dělení je pak takové, pro něhož mají úseky zachovávající výše zmíněnou vlastnost minimální délku. Dodnes ovšem není stále jasné, jakým způsobem lze takovou optimální segmentaci vyprodukovat. Proto jsme nejprve popsali instrukce, jak získat optimální segmentaci simulováním dokonalého lidského tlumočníka s neomezeným časem, a pak tímto způsobem oanotovali již existující dataset ESIC. Následně jsme navrhli několik segmentačních metod, které jsme charakterizovali z hlediska frekvence a délek segmentů, a typů slov, které byly segmentačními metodami nejčastěji rozdělovány. Kromě segmentačních metod jsme pak také implementovali a analyzovali dva neuronové strojové překladače - první standardně naučený na dokončených paralelních větách a druhý dotrénovaný na částečných překladech. Nakonec jsme vyhodnotili vyprodukované úseky všech segmentačních metod pomocí evaluačního nástroje SLTev a zhodnotili, jaký vliv měla na jejich výsledky volba použitého překladače.cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectNLP|Simultaneous machine translation|Segmentation methodsen_US
dc.subjectNLP|Simultánní strojový překlad|Segmentační metodycs_CZ
dc.titleMethods of Input Segmentation for Simultaneous Speech Translationen_US
dc.typediplomová prácecs_CZ
dcterms.created2022
dcterms.dateAccepted2022-09-07
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId245699
dc.title.translatedZpůsoby segmentace vstupu pro účely simultánního strojového překladu mluvené řečics_CZ
dc.contributor.refereePolák, Peter
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineComputer Science - Artificial Intelligenceen_US
thesis.degree.disciplineInformatika - Umělá inteligencecs_CZ
thesis.degree.programComputer Science - Artificial Intelligenceen_US
thesis.degree.programInformatika - Umělá inteligencecs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csInformatika - Umělá inteligencecs_CZ
uk.degree-discipline.enComputer Science - Artificial Intelligenceen_US
uk.degree-program.csInformatika - Umělá inteligencecs_CZ
uk.degree-program.enComputer Science - Artificial Intelligenceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csSegmentační metody jsou důležitou součástí při simultánním strojovém překladu, jelikož by v ideálním případě měly být zodpovědné za dělení vstupních vět na takové úseky, k jejichž překladům není potřeba znát kontext, který se dostaví až po nich. Optimální dělení je pak takové, pro něhož mají úseky zachovávající výše zmíněnou vlastnost minimální délku. Dodnes ovšem není stále jasné, jakým způsobem lze takovou optimální segmentaci vyprodukovat. Proto jsme nejprve popsali instrukce, jak získat optimální segmentaci simulováním dokonalého lidského tlumočníka s neomezeným časem, a pak tímto způsobem oanotovali již existující dataset ESIC. Následně jsme navrhli několik segmentačních metod, které jsme charakterizovali z hlediska frekvence a délek segmentů, a typů slov, které byly segmentačními metodami nejčastěji rozdělovány. Kromě segmentačních metod jsme pak také implementovali a analyzovali dva neuronové strojové překladače - první standardně naučený na dokončených paralelních větách a druhý dotrénovaný na částečných překladech. Nakonec jsme vyhodnotili vyprodukované úseky všech segmentačních metod pomocí evaluačního nástroje SLTev a zhodnotili, jaký vliv měla na jejich výsledky volba použitého překladače.cs_CZ
uk.abstract.enSegmentation methods are an essential part of the simultaneous machine translation process because, in the ideal case, they split the input into chunks whose translation is independent of any forthcoming context. Furthermore, the optimal splitting should also ensure that the segments with the previous characterization have minimal lengths. However, there is still no agreement about the rules that should produce such an optimal splitting. Therefore, we started with the annotation of the ESIC dataset by simulating a perfect human interpreter with an infinite amount of time and resources. Then we proposed multiple segmentation methods that we compared to each other in terms of segments' lengths, counts, and statistics of the most frequently split types of words. Apart from the segmentation methods, we also implemented and analyzed two variants of neural machine translation models - one trained solely on complete sentences and the other finetuned with partial translations. Finally, we evaluated the translation quality and delay of segments produced by splitting methods with the SLTev evaluation toolkit and discussed the effect of both machine translation models on the results.en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code1
dc.contributor.consultantTamchyna, Aleš
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV