Analyzing differences in alternative translations
Analýza rozdílů v alternativních překladech
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/192874Identifiers
Study Information System: 257455
Collections
- Kvalifikační práce [11326]
Author
Advisor
Referee
Kloudová, Věra
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science with specialisation in Foundations of Computer Science
Department
Institute of Formal and Applied Linguistics
Date of defense
5. 9. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Very good
Keywords (Czech)
strojový překlad|analýza textu|optimální referenční překlad|překlad|srovnáníKeywords (English)
machine translation|text analysis|optimal reference translation|translation|comparisonCieľom tejto práce je nájsť rozdiely medzi optimálnymi referenčnými prekladmi (ORT) a štandardnými referenčnými prekladmi (SRT) pomocou nástroja MCC vyvinutého na ich porovnanie. Pre tieto alternatívne preklady sa porovnávajú rôzne metriky založené na morfológii, syntaxi, jazykových modeloch a iných a vyhodnocujú sa pomocou rozdielu a t-testu. Tie, ktoré sú medzi prekladmi dostatočne kontrastné, sú ďalej analyzované po- mocou príkladov. Zistili sme výrazne vyššie využitie priamej reči v ORT, ktorá je v SRT nahradená nepriamou rečou. Vyššiu syntaktickú náročnosť (priemerný počet vedľajších viet) nachádzame v ORT, čo pripisujeme najmä vyššiemu podielu vedľajších viet rozvíjaj- úcich podstatné meno v tomto preklade. Nakoniec sme zahrnuli porovnanie dĺžky ORT s dvoma vybranými strojovými prekladmi. Zistili sme, že ORT je dlhší v oboch prípadoch na úrovni dokumentu aj na úrovni segmentov, ktoré sú kratšie väčšinou z dôvodu úplného vynechania prekladov celých súvetí alebo dokonca viet.
This thesis aims to find differences between optimal reference translations (ORT) and standard reference translations (SRT) using the MCC tool developed for their comparison. Various metrics based on morphology, syntax, language models and others are compared for these alternative translations and evaluated using difference and t-test. The ones that contrast enough between the translations are further analyzed using examples. We found a significantly higher use of active voice in the ORTs, substituted by passive voice in the SRTs. A higher syntactic complexity (average number of subordinate clauses) is found in ORT, which we mainly attribute to a higher proportion of adnominal clauses in this translation. Lastly, we included a length comparison of an ORT with two selected machine translations. We found that the ORT is longer in both cases on the document and the segment level, which are shorter mostly because of completely omitting translations of whole phrases or even sentences.