Robust language understanding for a voice-based dialogue system

Požár, Borek

Robustní porozumění jazyku pro hlasový dialogový systém

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (347.3Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/193496

Identifikátory

SIS: 258605

Oponent práce

Polák, Peter

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Jazykové technologie a počítačová lingvistika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

10. 9. 2024

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

porozumění mluvené řeči, porozumění jazyku, dialogové systémy, detekce slotů

Klíčová slova (anglicky)

spoken language understanding, language understanding, dialogue systems, slot detection

Hlasové dialogové systémy orientované na úkoly umožňují uživatelům dosahovat cílů na počítači pomocí hlasu. Důležitou součástí porozumění mluvené řeči (SLU) v těchto hlasových dialogových systémech je vyplňování slotů, tj. extrakce informací specifických pro daný úkol z výpovědi. Tuto úlohu zkoumáme v oblasti vyhledávání ve veřejné do- pravě, kde potřebné sloty zahrnují například názvy míst odjezdu a příjezdu. Sestavili jsme dataset zaměřený na vyplňování mluvených slotů v češtině v této oblasti, spolu s baseline výsledky využívajícími pipeline rozpoznávání řeči (ASR) a textového vyplňování slotů založeného na pravidlech. Naše hlavní výzkumná otázka zní: Jak můžeme využít předchozí znalosti možných hodnot slotů (máme je v databázi) k dosažení robustního vy- plňování slotů v SLU pomocí obecného předtrénovaného modelu ASR (bez fine-tuningu ASR modelu)? Na tuto otázku se snažíme odpovědět návrhem nové architektury, která integruje SLU přidáním nové vrstvy dekodéru k předtrénovanému modelu rozpoznávání řeči Whisper. Výkonnost naší architektury bohužel nepřekonává baseline.

Abstrakt (anglicky)

Voice-based task-oriented dialogue systems enable users to complete tasks on com- puters using their voice. A critical part of spoken language understanding (SLU) in these voice-based dialogue systems is slot filling, i.e., extracting task-specific pieces of infor- mation from the utterance. We explore this task in the public transport search domain, where necessary slots include the names of departure and arrival locations. We compile a dataset aimed at spoken slot filling in Czech in this domain, together with baseline results utilizing a speech recognition and rule-based slot filling pipeline. Our primary research question is: How can we utilize prior knowledge of possible slot values (having them in a database) to achieve robust slot filling in SLU with general off-the-shelf automatic speech recognition (without fine-tuning the speech model)? We try to answer this question by proposing a novel architecture that integrates SLU by adding a new decoder layer to the Whisper speech recognition pre-trained model. Unfortunately, the performance of our architecture does not surpass the baseline.

Citace dokumentu

Metadata

Zobrazit celý záznam