Generování textů českých coververzí anglických písní
Generation of Czech Lyrics to Cover Songs
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/192043Identifikátory
SIS: 269769
Kolekce
- Kvalifikační práce [11214]
Autor
Vedoucí práce
Oponent práce
Mareček, David
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
28. 6. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
zpracování přirozeného jazyka|generování textu|literární NLP|strojový překladKlíčová slova (anglicky)
natural language processing|text generation|literary NLP|machine translationTato práce se zabývá tvorbou českých textů k anglickým originálním písním. Písně jsou často překládány do různých jazyků, aby byly přístupné i lidem, kteří nerozumějí původnímu jazyku. Během procesu překladu je však nezbytné zachovat zpěvnost textu vzhledem k melodii půvdní písně, stejně tak jako význam písně, aby i přeložený text seděl do kontextu originálu. V současné době se takové překlady provádějí ručně. Provádíme analýzu a představujeme první přístupy k řešení tohoto problému pro češtinu prostřed- nictvím automatického generování pomocí NLP metod. V naší práci vytváříme a poskytu- jeme dataset sestávající se z dvojic Anglických písňových textů a jejich oficiálních Českých překladů. Také poskytujeme dataset z čistě Českých písňových textů. Porovnáváme kval- itu několika generativních jazykových modelů. Pro důkladné zhodnocení a analýzu jejich kvality zavádíme několik automatických metrik a bereme v úvahu i výsledky od lidských hodnotitelů. Zjistili jsme, menší natrénované modely mají lepší výsledky než větší ne- natrénované modely.. Kromě toho je pro kvalitní generování coververzí důležitý kontext. Nakonec ukazujeme, že k našemu úkolu lze přistupovat jak prostřednictvím přístupu založeném na překladu, tak prostřednictvím generativních modelů. 1
This thesis explores the topic of generating Czech lyrics to English cover songs. Songs are often adapted to different languages to make them more available to people who do not necessarily speak the language of the original song. During the translation process, however, it is essential to preserve the singability of the text in relation to the melody of the original song, as well as the meaning of the song, so that the translated text fits the context of the original. Currently, such translations are done by hand. We analyze and present the first approaches to solve this problem for Czech through automatic generation using NLP methods. In our work, we create and provide a dataset consisting of pairs of English song lyrics and their official Czech translations. We also provide a dataset of pure Czech song lyrics. We compare the quality of several generative language models. To thoroughly evaluate and analyze their quality, we introduce several automatic metrics and take into account the results of manual evaluation. We find that smaller trained models perform better than larger untrained models. In addition, context is important for the generation of good covers. Finally, we show that our task can be approached from both the translation and generation point of view. 1