Methods of Input Segmentation for Simultaneous Speech Translation
Způsoby segmentace vstupu pro účely simultánního strojového překladu mluvené řeči
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/175724Identifikátory
SIS: 245699
Kolekce
- Kvalifikační práce [11242]
Autor
Vedoucí práce
Konzultant práce
Tamchyna, Aleš
Oponent práce
Polák, Peter
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
7. 9. 2022
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
NLP|Simultánní strojový překlad|Segmentační metodyKlíčová slova (anglicky)
NLP|Simultaneous machine translation|Segmentation methodsSegmentační metody jsou důležitou součástí při simultánním strojovém překladu, jelikož by v ideálním případě měly být zodpovědné za dělení vstupních vět na takové úseky, k jejichž překladům není potřeba znát kontext, který se dostaví až po nich. Optimální dělení je pak takové, pro něhož mají úseky zachovávající výše zmíněnou vlastnost minimální délku. Dodnes ovšem není stále jasné, jakým způsobem lze takovou optimální segmentaci vyprodukovat. Proto jsme nejprve popsali instrukce, jak získat optimální segmentaci simulováním dokonalého lidského tlumočníka s neomezeným časem, a pak tímto způsobem oanotovali již existující dataset ESIC. Následně jsme navrhli několik segmentačních metod, které jsme charakterizovali z hlediska frekvence a délek segmentů, a typů slov, které byly segmentačními metodami nejčastěji rozdělovány. Kromě segmentačních metod jsme pak také implementovali a analyzovali dva neuronové strojové překladače - první standardně naučený na dokončených paralelních větách a druhý dotrénovaný na částečných překladech. Nakonec jsme vyhodnotili vyprodukované úseky všech segmentačních metod pomocí evaluačního nástroje SLTev a zhodnotili, jaký vliv měla na jejich výsledky volba použitého překladače.
Segmentation methods are an essential part of the simultaneous machine translation process because, in the ideal case, they split the input into chunks whose translation is independent of any forthcoming context. Furthermore, the optimal splitting should also ensure that the segments with the previous characterization have minimal lengths. However, there is still no agreement about the rules that should produce such an optimal splitting. Therefore, we started with the annotation of the ESIC dataset by simulating a perfect human interpreter with an infinite amount of time and resources. Then we proposed multiple segmentation methods that we compared to each other in terms of segments' lengths, counts, and statistics of the most frequently split types of words. Apart from the segmentation methods, we also implemented and analyzed two variants of neural machine translation models - one trained solely on complete sentences and the other finetuned with partial translations. Finally, we evaluated the translation quality and delay of segments produced by splitting methods with the SLTev evaluation toolkit and discussed the effect of both machine translation models on the results.