Methods of Input Segmentation for Simultaneous Speech Translation

Ryšlink, Václav

Způsoby segmentace vstupu pro účely simultánního strojového překladu mluvené řeči

dc.contributor.advisor	Bojar, Ondřej
dc.creator	Ryšlink, Václav
dc.date.accessioned	2022-10-04T17:01:02Z
dc.date.available	2022-10-04T17:01:02Z
dc.date.issued	2022
dc.identifier.uri	http://hdl.handle.net/20.500.11956/175724
dc.description.abstract	Segmentation methods are an essential part of the simultaneous machine translation process because, in the ideal case, they split the input into chunks whose translation is independent of any forthcoming context. Furthermore, the optimal splitting should also ensure that the segments with the previous characterization have minimal lengths. However, there is still no agreement about the rules that should produce such an optimal splitting. Therefore, we started with the annotation of the ESIC dataset by simulating a perfect human interpreter with an infinite amount of time and resources. Then we proposed multiple segmentation methods that we compared to each other in terms of segments' lengths, counts, and statistics of the most frequently split types of words. Apart from the segmentation methods, we also implemented and analyzed two variants of neural machine translation models - one trained solely on complete sentences and the other finetuned with partial translations. Finally, we evaluated the translation quality and delay of segments produced by splitting methods with the SLTev evaluation toolkit and discussed the effect of both machine translation models on the results.	en_US
dc.description.abstract	Segmentační metody jsou důležitou součástí při simultánním strojovém překladu, jelikož by v ideálním případě měly být zodpovědné za dělení vstupních vět na takové úseky, k jejichž překladům není potřeba znát kontext, který se dostaví až po nich. Optimální dělení je pak takové, pro něhož mají úseky zachovávající výše zmíněnou vlastnost minimální délku. Dodnes ovšem není stále jasné, jakým způsobem lze takovou optimální segmentaci vyprodukovat. Proto jsme nejprve popsali instrukce, jak získat optimální segmentaci simulováním dokonalého lidského tlumočníka s neomezeným časem, a pak tímto způsobem oanotovali již existující dataset ESIC. Následně jsme navrhli několik segmentačních metod, které jsme charakterizovali z hlediska frekvence a délek segmentů, a typů slov, které byly segmentačními metodami nejčastěji rozdělovány. Kromě segmentačních metod jsme pak také implementovali a analyzovali dva neuronové strojové překladače - první standardně naučený na dokončených paralelních větách a druhý dotrénovaný na částečných překladech. Nakonec jsme vyhodnotili vyprodukované úseky všech segmentačních metod pomocí evaluačního nástroje SLTev a zhodnotili, jaký vliv měla na jejich výsledky volba použitého překladače.	cs_CZ
dc.language	English	cs_CZ
dc.language.iso	en_US
dc.publisher	Univerzita Karlova, Matematicko-fyzikální fakulta	cs_CZ
dc.subject	NLP\|Simultaneous machine translation\|Segmentation methods	en_US
dc.subject	NLP\|Simultánní strojový překlad\|Segmentační metody	cs_CZ
dc.title	Methods of Input Segmentation for Simultaneous Speech Translation	en_US
dc.type	diplomová práce	cs_CZ
dcterms.created	2022
dcterms.dateAccepted	2022-09-07
dc.description.department	Institute of Formal and Applied Linguistics	en_US
dc.description.department	Ústav formální a aplikované lingvistiky	cs_CZ
dc.description.faculty	Matematicko-fyzikální fakulta	cs_CZ
dc.description.faculty	Faculty of Mathematics and Physics	en_US
dc.identifier.repId	245699
dc.title.translated	Způsoby segmentace vstupu pro účely simultánního strojového překladu mluvené řeči	cs_CZ
dc.contributor.referee	Polák, Peter
thesis.degree.name	Mgr.
thesis.degree.level	navazující magisterské	cs_CZ
thesis.degree.discipline	Computer Science - Artificial Intelligence	en_US
thesis.degree.discipline	Informatika - Umělá inteligence	cs_CZ
thesis.degree.program	Computer Science - Artificial Intelligence	en_US
thesis.degree.program	Informatika - Umělá inteligence	cs_CZ
uk.thesis.type	diplomová práce	cs_CZ
uk.taxonomy.organization-cs	Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky	cs_CZ
uk.taxonomy.organization-en	Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics	en_US
uk.faculty-name.cs	Matematicko-fyzikální fakulta	cs_CZ
uk.faculty-name.en	Faculty of Mathematics and Physics	en_US
uk.faculty-abbr.cs	MFF	cs_CZ
uk.degree-discipline.cs	Informatika - Umělá inteligence	cs_CZ
uk.degree-discipline.en	Computer Science - Artificial Intelligence	en_US
uk.degree-program.cs	Informatika - Umělá inteligence	cs_CZ
uk.degree-program.en	Computer Science - Artificial Intelligence	en_US
thesis.grade.cs	Výborně	cs_CZ
thesis.grade.en	Excellent	en_US
uk.abstract.cs	Segmentační metody jsou důležitou součástí při simultánním strojovém překladu, jelikož by v ideálním případě měly být zodpovědné za dělení vstupních vět na takové úseky, k jejichž překladům není potřeba znát kontext, který se dostaví až po nich. Optimální dělení je pak takové, pro něhož mají úseky zachovávající výše zmíněnou vlastnost minimální délku. Dodnes ovšem není stále jasné, jakým způsobem lze takovou optimální segmentaci vyprodukovat. Proto jsme nejprve popsali instrukce, jak získat optimální segmentaci simulováním dokonalého lidského tlumočníka s neomezeným časem, a pak tímto způsobem oanotovali již existující dataset ESIC. Následně jsme navrhli několik segmentačních metod, které jsme charakterizovali z hlediska frekvence a délek segmentů, a typů slov, které byly segmentačními metodami nejčastěji rozdělovány. Kromě segmentačních metod jsme pak také implementovali a analyzovali dva neuronové strojové překladače - první standardně naučený na dokončených paralelních větách a druhý dotrénovaný na částečných překladech. Nakonec jsme vyhodnotili vyprodukované úseky všech segmentačních metod pomocí evaluačního nástroje SLTev a zhodnotili, jaký vliv měla na jejich výsledky volba použitého překladače.	cs_CZ
uk.abstract.en	Segmentation methods are an essential part of the simultaneous machine translation process because, in the ideal case, they split the input into chunks whose translation is independent of any forthcoming context. Furthermore, the optimal splitting should also ensure that the segments with the previous characterization have minimal lengths. However, there is still no agreement about the rules that should produce such an optimal splitting. Therefore, we started with the annotation of the ESIC dataset by simulating a perfect human interpreter with an infinite amount of time and resources. Then we proposed multiple segmentation methods that we compared to each other in terms of segments' lengths, counts, and statistics of the most frequently split types of words. Apart from the segmentation methods, we also implemented and analyzed two variants of neural machine translation models - one trained solely on complete sentences and the other finetuned with partial translations. Finally, we evaluated the translation quality and delay of segments produced by splitting methods with the SLTev evaluation toolkit and discussed the effect of both machine translation models on the results.	en_US
uk.file-availability	V
uk.grantor	Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky	cs_CZ
thesis.grade.code	1
dc.contributor.consultant	Tamchyna, Aleš
uk.publication-place	Praha	cs_CZ
uk.thesis.defenceStatus	O