Code Dictation Tool

Kaňa, Roman

Nástroj pro programování hlasem

dc.contributor.advisor	Polák, Peter
dc.creator	Kaňa, Roman
dc.date.accessioned	2024-11-29T08:31:26Z
dc.date.available	2024-11-29T08:31:26Z
dc.date.issued	2024
dc.identifier.uri	http://hdl.handle.net/20.500.11956/193021
dc.description.abstract	Systémy automatického rozpoznávání řeči (ASR) jsou významnou součástí dnešního uživatelského prostředí, protože hlas/zvuk je jedním z mála možných způsobů, jak se vyjádřit, a jejich použití by mohlo zpříjemnit nebo dokonce zrychlit interakci mezi lidmi a stroji. Tato práce pojednává o našem přístupu k implementaci nástroje pro diktování kódu jako rozšíření Visual Studio Code Extension s využitím modelu Whisper společnosti OpenAI jako ASR s dalším zpracováním rozpoznaných slov do kódu nebo akcí použitel- ných v editoru. S modelem Whisper jsme také experimentovali, abychom zjistili, zda lze zlepšit chybovost slov při diktování kódu nebo zda by model mohl generovat pužitelný kód zcela bez dalšího zpracování.	cs_CZ
dc.description.abstract	Automatic Speech Recognition (ASR) systems are a big part of today's user environ- ment since voice/audio is one of the few possible ways to express oneself, and using it could make the interaction between humans and machines more pleasant or even faster. This thesis discusses our approach to implementing a Code Dictation Tool as Visual Stu- dio Code Extension using OpenAI's Whisper model as ASR with additional processing of the recognised words into code or actions applicable in the editor. We also experimented with the Whisper model to see if the word error rate in the code dictation could be improved or if the model could generate ready-to-use code altogether without additional processing.	en_US
dc.language	English	cs_CZ
dc.language.iso	en_US
dc.publisher	Univerzita Karlova, Matematicko-fyzikální fakulta	cs_CZ
dc.subject	programming-by-voice\|assistive technologies\|machine learning\|automatic speech transcription\|code dictation\|interactivity	en_US
dc.subject	programování hlasem\|asistenční technologies\|strojové učení\|automatický přepis řeči\|diktování kódu\|interaktivita	cs_CZ
dc.title	Code Dictation Tool	en_US
dc.type	bakalářská práce	cs_CZ
dcterms.created	2024
dcterms.dateAccepted	2024-09-05
dc.description.department	Institute of Formal and Applied Linguistics	en_US
dc.description.department	Ústav formální a aplikované lingvistiky	cs_CZ
dc.description.faculty	Matematicko-fyzikální fakulta	cs_CZ
dc.description.faculty	Faculty of Mathematics and Physics	en_US
dc.identifier.repId	271099
dc.title.translated	Nástroj pro programování hlasem	cs_CZ
dc.contributor.referee	Javorský, Dávid
thesis.degree.name	Bc.
thesis.degree.level	bakalářské	cs_CZ
thesis.degree.discipline	Computer Science with specialisation in Artificial Intelligence	en_US
thesis.degree.discipline	Informatika se specializací Umělá inteligence	cs_CZ
thesis.degree.program	Computer Science	en_US
thesis.degree.program	Informatika	cs_CZ
uk.thesis.type	bakalářská práce	cs_CZ
uk.taxonomy.organization-cs	Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky	cs_CZ
uk.taxonomy.organization-en	Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics	en_US
uk.faculty-name.cs	Matematicko-fyzikální fakulta	cs_CZ
uk.faculty-name.en	Faculty of Mathematics and Physics	en_US
uk.faculty-abbr.cs	MFF	cs_CZ
uk.degree-discipline.cs	Informatika se specializací Umělá inteligence	cs_CZ
uk.degree-discipline.en	Computer Science with specialisation in Artificial Intelligence	en_US
uk.degree-program.cs	Informatika	cs_CZ
uk.degree-program.en	Computer Science	en_US
thesis.grade.cs	Dobře	cs_CZ
thesis.grade.en	Good	en_US
uk.abstract.cs	Systémy automatického rozpoznávání řeči (ASR) jsou významnou součástí dnešního uživatelského prostředí, protože hlas/zvuk je jedním z mála možných způsobů, jak se vyjádřit, a jejich použití by mohlo zpříjemnit nebo dokonce zrychlit interakci mezi lidmi a stroji. Tato práce pojednává o našem přístupu k implementaci nástroje pro diktování kódu jako rozšíření Visual Studio Code Extension s využitím modelu Whisper společnosti OpenAI jako ASR s dalším zpracováním rozpoznaných slov do kódu nebo akcí použitel- ných v editoru. S modelem Whisper jsme také experimentovali, abychom zjistili, zda lze zlepšit chybovost slov při diktování kódu nebo zda by model mohl generovat pužitelný kód zcela bez dalšího zpracování.	cs_CZ
uk.abstract.en	Automatic Speech Recognition (ASR) systems are a big part of today's user environ- ment since voice/audio is one of the few possible ways to express oneself, and using it could make the interaction between humans and machines more pleasant or even faster. This thesis discusses our approach to implementing a Code Dictation Tool as Visual Stu- dio Code Extension using OpenAI's Whisper model as ASR with additional processing of the recognised words into code or actions applicable in the editor. We also experimented with the Whisper model to see if the word error rate in the code dictation could be improved or if the model could generate ready-to-use code altogether without additional processing.	en_US
uk.file-availability	V
uk.grantor	Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky	cs_CZ
thesis.grade.code	3
uk.publication-place	Praha	cs_CZ
uk.thesis.defenceStatus	O