dc.contributor.advisor | Bojar, Ondřej | |
dc.creator | Ryšlink, Václav | |
dc.date.accessioned | 2022-10-04T17:01:02Z | |
dc.date.available | 2022-10-04T17:01:02Z | |
dc.date.issued | 2022 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/175724 | |
dc.description.abstract | Segmentation methods are an essential part of the simultaneous machine translation process because, in the ideal case, they split the input into chunks whose translation is independent of any forthcoming context. Furthermore, the optimal splitting should also ensure that the segments with the previous characterization have minimal lengths. However, there is still no agreement about the rules that should produce such an optimal splitting. Therefore, we started with the annotation of the ESIC dataset by simulating a perfect human interpreter with an infinite amount of time and resources. Then we proposed multiple segmentation methods that we compared to each other in terms of segments' lengths, counts, and statistics of the most frequently split types of words. Apart from the segmentation methods, we also implemented and analyzed two variants of neural machine translation models - one trained solely on complete sentences and the other finetuned with partial translations. Finally, we evaluated the translation quality and delay of segments produced by splitting methods with the SLTev evaluation toolkit and discussed the effect of both machine translation models on the results. | en_US |
dc.description.abstract | Segmentační metody jsou důležitou součástí při simultánním strojovém překladu, jelikož by v ideálním případě měly být zodpovědné za dělení vstupních vět na takové úseky, k jejichž překladům není potřeba znát kontext, který se dostaví až po nich. Optimální dělení je pak takové, pro něhož mají úseky zachovávající výše zmíněnou vlastnost minimální délku. Dodnes ovšem není stále jasné, jakým způsobem lze takovou optimální segmentaci vyprodukovat. Proto jsme nejprve popsali instrukce, jak získat optimální segmentaci simulováním dokonalého lidského tlumočníka s neomezeným časem, a pak tímto způsobem oanotovali již existující dataset ESIC. Následně jsme navrhli několik segmentačních metod, které jsme charakterizovali z hlediska frekvence a délek segmentů, a typů slov, které byly segmentačními metodami nejčastěji rozdělovány. Kromě segmentačních metod jsme pak také implementovali a analyzovali dva neuronové strojové překladače - první standardně naučený na dokončených paralelních větách a druhý dotrénovaný na částečných překladech. Nakonec jsme vyhodnotili vyprodukované úseky všech segmentačních metod pomocí evaluačního nástroje SLTev a zhodnotili, jaký vliv měla na jejich výsledky volba použitého překladače. | cs_CZ |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | NLP|Simultaneous machine translation|Segmentation methods | en_US |
dc.subject | NLP|Simultánní strojový překlad|Segmentační metody | cs_CZ |
dc.title | Methods of Input Segmentation for Simultaneous Speech Translation | en_US |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2022 | |
dcterms.dateAccepted | 2022-09-07 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 245699 | |
dc.title.translated | Způsoby segmentace vstupu pro účely simultánního strojového překladu mluvené řeči | cs_CZ |
dc.contributor.referee | Polák, Peter | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Computer Science - Artificial Intelligence | en_US |
thesis.degree.discipline | Informatika - Umělá inteligence | cs_CZ |
thesis.degree.program | Computer Science - Artificial Intelligence | en_US |
thesis.degree.program | Informatika - Umělá inteligence | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Informatika - Umělá inteligence | cs_CZ |
uk.degree-discipline.en | Computer Science - Artificial Intelligence | en_US |
uk.degree-program.cs | Informatika - Umělá inteligence | cs_CZ |
uk.degree-program.en | Computer Science - Artificial Intelligence | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Segmentační metody jsou důležitou součástí při simultánním strojovém překladu, jelikož by v ideálním případě měly být zodpovědné za dělení vstupních vět na takové úseky, k jejichž překladům není potřeba znát kontext, který se dostaví až po nich. Optimální dělení je pak takové, pro něhož mají úseky zachovávající výše zmíněnou vlastnost minimální délku. Dodnes ovšem není stále jasné, jakým způsobem lze takovou optimální segmentaci vyprodukovat. Proto jsme nejprve popsali instrukce, jak získat optimální segmentaci simulováním dokonalého lidského tlumočníka s neomezeným časem, a pak tímto způsobem oanotovali již existující dataset ESIC. Následně jsme navrhli několik segmentačních metod, které jsme charakterizovali z hlediska frekvence a délek segmentů, a typů slov, které byly segmentačními metodami nejčastěji rozdělovány. Kromě segmentačních metod jsme pak také implementovali a analyzovali dva neuronové strojové překladače - první standardně naučený na dokončených paralelních větách a druhý dotrénovaný na částečných překladech. Nakonec jsme vyhodnotili vyprodukované úseky všech segmentačních metod pomocí evaluačního nástroje SLTev a zhodnotili, jaký vliv měla na jejich výsledky volba použitého překladače. | cs_CZ |
uk.abstract.en | Segmentation methods are an essential part of the simultaneous machine translation process because, in the ideal case, they split the input into chunks whose translation is independent of any forthcoming context. Furthermore, the optimal splitting should also ensure that the segments with the previous characterization have minimal lengths. However, there is still no agreement about the rules that should produce such an optimal splitting. Therefore, we started with the annotation of the ESIC dataset by simulating a perfect human interpreter with an infinite amount of time and resources. Then we proposed multiple segmentation methods that we compared to each other in terms of segments' lengths, counts, and statistics of the most frequently split types of words. Apart from the segmentation methods, we also implemented and analyzed two variants of neural machine translation models - one trained solely on complete sentences and the other finetuned with partial translations. Finally, we evaluated the translation quality and delay of segments produced by splitting methods with the SLTev evaluation toolkit and discussed the effect of both machine translation models on the results. | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | 1 | |
dc.contributor.consultant | Tamchyna, Aleš | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |