dc.contributor.advisor | Žabokrtský, Zdeněk | |
dc.creator | Beňa, Peter | |
dc.date.accessioned | 2017-04-13T08:43:59Z | |
dc.date.available | 2017-04-13T08:43:59Z | |
dc.date.issued | 2009 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/18764 | |
dc.description.abstract | Student se seznámí s metodami a nástroji pro budování paralelních korpusů a zaměří se na česko-anglický paralelní korpus Czeng. Hlavním cílem práce je zvýšit kvalitu té části Czengu, která byla vytvořena z anglických a českých titulků k filmům a seriálům. Především je nutné vypracovat automatické metody, které v paralelním korpusu naleznou a odstraní chybně spárované nebo jinak vadné texty nebo jejich části. Výsledky čištění korpusu budou kvantitativně vyhodnoceny. | cs_CZ |
dc.description.abstract | After learning the basic principles of building parallel corpora, the student will focus on the Czech-English parallel corpus Czeng. The main goal of the work is to improve quality of the Czeng part created from Czech/English movie and series subtitles. Above all, it is necessary to design and implement methods for detecting wrongly aligned (or otherwise problematic) subtitle files or their parts. Impact of the cleaning methods on the corpus quality will be evaluated quantitatively. | en_US |
dc.language | Slovenčina | cs_CZ |
dc.language.iso | sk_SK | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.title | Filmové titulky jako zdroj paralelních textů | sk_SK |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2009 | |
dcterms.dateAccepted | 2009-02-11 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 57681 | |
dc.title.translated | Movie subtitles as a source of parallel texts | en_US |
dc.title.translated | Filmové titulky jako zdroj paralelních textů | cs_CZ |
dc.contributor.referee | Bojar, Ondřej | |
dc.identifier.aleph | 001119352 | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | General Computer Science | en_US |
thesis.degree.discipline | Obecná informatika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Obecná informatika | cs_CZ |
uk.degree-discipline.en | General Computer Science | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Dobře | cs_CZ |
thesis.grade.en | Good | en_US |
uk.abstract.cs | Student se seznámí s metodami a nástroji pro budování paralelních korpusů a zaměří se na česko-anglický paralelní korpus Czeng. Hlavním cílem práce je zvýšit kvalitu té části Czengu, která byla vytvořena z anglických a českých titulků k filmům a seriálům. Především je nutné vypracovat automatické metody, které v paralelním korpusu naleznou a odstraní chybně spárované nebo jinak vadné texty nebo jejich části. Výsledky čištění korpusu budou kvantitativně vyhodnoceny. | cs_CZ |
uk.abstract.en | After learning the basic principles of building parallel corpora, the student will focus on the Czech-English parallel corpus Czeng. The main goal of the work is to improve quality of the Czeng part created from Czech/English movie and series subtitles. Above all, it is necessary to design and implement methods for detecting wrongly aligned (or otherwise problematic) subtitle files or their parts. Impact of the cleaning methods on the corpus quality will be evaluated quantitatively. | en_US |
uk.file-availability | V | |
uk.publication.place | Praha | cs_CZ |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
dc.identifier.lisID | 990011193520106986 | |