Speech-Informed Inverse Text Normalization
Normalizace automatických transkriptů s ohledem na zdrojový zvukový signál
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/190621Identifikátory
SIS: 245002
Kolekce
- Kvalifikační práce [11242]
Autor
Vedoucí práce
Oponent práce
Plátek, Ondřej
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
10. 6. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
normalizace automatických transkriptů|multimodalita|automatické rozpoznávání řeči|zpracování přirozeného jazyka|hluboké učeníKlíčová slova (anglicky)
inverse text normalization|multimodality|automatic speech recognition|natural language processing|deep learningV oblasti automatického rozpoznávání řeči (ASR) se po rozpoznání řeči používá in- verzní normalizace textu (ITN), která transformuje rozpoznaný verbalizovaný text do písemné podoby. Tento proces může zahrnovat převod verbalizovaných čísel na číslice, formátování dat, peněžních částek a aplikaci správné kapitalizace a vkládání interpunkce. Vzhledem k tomu, že ITN systémy se používají pro zpracování výstupů ASR, je také možné do ITN systému integrovat původní zvukový vstup jako další signál. V této diplo- mové práci zkoumáme vliv zvukového signálu na výkonnost neuronových ITN modelů a vytváříme datovou sadu pro trénování a vyhodnocování ITN modelů používajících řeč. Náš nejlepší model vykazuje výrazné zlepšení přesnosti a úplnosti při vkládání teček, čárek a otazníků, stejně jako při přidávání velkých písmen ve srovnání s výchozím modelem, který pracuje pouze s textem. Pozorujeme také zlepšení u méně častých interpunkčních znamének, i když toto zlepšení není statisticky významné. 1
In the domain of Automatic Speech Recognition (ASR), Inverse Text Normalization (ITN) is applied after the speech recognition step to transform recognized verbalized text into written form. This process includes converting verbalized numbers into digits, formatting dates and monetary amounts, and applying correct capitalization and inserting punctuation marks. As ITN systems serve as post-processing modules for ASR outputs, integrating the original audio input as an additional signal into the ITN system is also possible. In this thesis, we explore the impact of the speech signal on the performance of ITN neural models and create a dataset for training and evaluating speech-informed ITN models. Our best model demonstrates a significant improvement in the precision and recall of inserting periods, commas, and question marks, as well as in adding letter casing, when compared to the text-only baseline. Improvements are also observed in less frequent punctuation symbols, though they are not statistically significant. 1