dc.contributor.advisor | Dušek, Ondřej | |
dc.creator | Požár, Borek | |
dc.date.accessioned | 2024-10-01T06:54:42Z | |
dc.date.available | 2024-10-01T06:54:42Z | |
dc.date.issued | 2024 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/193496 | |
dc.description.abstract | Hlasové dialogové systémy orientované na úkoly umožňují uživatelům dosahovat cílů na počítači pomocí hlasu. Důležitou součástí porozumění mluvené řeči (SLU) v těchto hlasových dialogových systémech je vyplňování slotů, tj. extrakce informací specifických pro daný úkol z výpovědi. Tuto úlohu zkoumáme v oblasti vyhledávání ve veřejné do- pravě, kde potřebné sloty zahrnují například názvy míst odjezdu a příjezdu. Sestavili jsme dataset zaměřený na vyplňování mluvených slotů v češtině v této oblasti, spolu s baseline výsledky využívajícími pipeline rozpoznávání řeči (ASR) a textového vyplňování slotů založeného na pravidlech. Naše hlavní výzkumná otázka zní: Jak můžeme využít předchozí znalosti možných hodnot slotů (máme je v databázi) k dosažení robustního vy- plňování slotů v SLU pomocí obecného předtrénovaného modelu ASR (bez fine-tuningu ASR modelu)? Na tuto otázku se snažíme odpovědět návrhem nové architektury, která integruje SLU přidáním nové vrstvy dekodéru k předtrénovanému modelu rozpoznávání řeči Whisper. Výkonnost naší architektury bohužel nepřekonává baseline. | cs_CZ |
dc.description.abstract | Voice-based task-oriented dialogue systems enable users to complete tasks on com- puters using their voice. A critical part of spoken language understanding (SLU) in these voice-based dialogue systems is slot filling, i.e., extracting task-specific pieces of infor- mation from the utterance. We explore this task in the public transport search domain, where necessary slots include the names of departure and arrival locations. We compile a dataset aimed at spoken slot filling in Czech in this domain, together with baseline results utilizing a speech recognition and rule-based slot filling pipeline. Our primary research question is: How can we utilize prior knowledge of possible slot values (having them in a database) to achieve robust slot filling in SLU with general off-the-shelf automatic speech recognition (without fine-tuning the speech model)? We try to answer this question by proposing a novel architecture that integrates SLU by adding a new decoder layer to the Whisper speech recognition pre-trained model. Unfortunately, the performance of our architecture does not surpass the baseline. | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | spoken language understanding|language understanding|dialogue systems|slot detection | en_US |
dc.subject | porozumění mluvené řeči|porozumění jazyku|dialogové systémy|detekce slotů | cs_CZ |
dc.title | Robustní porozumění jazyku pro hlasový dialogový systém | cs_CZ |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2024 | |
dcterms.dateAccepted | 2024-09-10 | |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 258605 | |
dc.title.translated | Robust language understanding for a voice-based dialogue system | en_US |
dc.contributor.referee | Polák, Peter | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Computer Science - Language Technologies and Computational Linguistics | en_US |
thesis.degree.discipline | Informatika - Jazykové technologie a počítačová lingvistika | cs_CZ |
thesis.degree.program | Computer Science - Language Technologies and Computational Linguistics | en_US |
thesis.degree.program | Informatika - Jazykové technologie a počítačová lingvistika | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Informatika - Jazykové technologie a počítačová lingvistika | cs_CZ |
uk.degree-discipline.en | Computer Science - Language Technologies and Computational Linguistics | en_US |
uk.degree-program.cs | Informatika - Jazykové technologie a počítačová lingvistika | cs_CZ |
uk.degree-program.en | Computer Science - Language Technologies and Computational Linguistics | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Hlasové dialogové systémy orientované na úkoly umožňují uživatelům dosahovat cílů na počítači pomocí hlasu. Důležitou součástí porozumění mluvené řeči (SLU) v těchto hlasových dialogových systémech je vyplňování slotů, tj. extrakce informací specifických pro daný úkol z výpovědi. Tuto úlohu zkoumáme v oblasti vyhledávání ve veřejné do- pravě, kde potřebné sloty zahrnují například názvy míst odjezdu a příjezdu. Sestavili jsme dataset zaměřený na vyplňování mluvených slotů v češtině v této oblasti, spolu s baseline výsledky využívajícími pipeline rozpoznávání řeči (ASR) a textového vyplňování slotů založeného na pravidlech. Naše hlavní výzkumná otázka zní: Jak můžeme využít předchozí znalosti možných hodnot slotů (máme je v databázi) k dosažení robustního vy- plňování slotů v SLU pomocí obecného předtrénovaného modelu ASR (bez fine-tuningu ASR modelu)? Na tuto otázku se snažíme odpovědět návrhem nové architektury, která integruje SLU přidáním nové vrstvy dekodéru k předtrénovanému modelu rozpoznávání řeči Whisper. Výkonnost naší architektury bohužel nepřekonává baseline. | cs_CZ |
uk.abstract.en | Voice-based task-oriented dialogue systems enable users to complete tasks on com- puters using their voice. A critical part of spoken language understanding (SLU) in these voice-based dialogue systems is slot filling, i.e., extracting task-specific pieces of infor- mation from the utterance. We explore this task in the public transport search domain, where necessary slots include the names of departure and arrival locations. We compile a dataset aimed at spoken slot filling in Czech in this domain, together with baseline results utilizing a speech recognition and rule-based slot filling pipeline. Our primary research question is: How can we utilize prior knowledge of possible slot values (having them in a database) to achieve robust slot filling in SLU with general off-the-shelf automatic speech recognition (without fine-tuning the speech model)? We try to answer this question by proposing a novel architecture that integrates SLU by adding a new decoder layer to the Whisper speech recognition pre-trained model. Unfortunately, the performance of our architecture does not surpass the baseline. | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | 1 | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |