Form of studies |
Bachelor |
Title of the study programm |
Intelligent robotic systems |
Title in original language |
Runas atpazīšanas priekšapstrādes metožu salīdzināšana |
Title in English |
Comparison of Pre-Processing Methods for Speech-to-Text |
Department |
Faculty Of Computer Science Information Tehnology And Energy |
Scientific advisor |
Ēvalds Urtāns |
Reviewer |
Olga Krutikova |
Abstract |
Runas atpazīšana atvieglo pierakstu veikšanu, kā arī tā tiek izmantota tādās tehnoloģijās kā balss asistenti tālruņos un palīdz cilvēkiem ar redzes traucējumiem. Tomēr neskatoties uz to augsto pieprasījumu, automātiskajā teksta izvadē joprojām ir sastopamas kļūdas.
Šajā darbā tika veikta salīdzināšana runas atpazīšanas metriku rezultātiem izmantojot priekšapstrādes metodes jeb precīzāk - vai ir iespējams uzlabot metriku rezultātus, kas iegūti no runas atpazīšanas, ja tam pirms tam veic priekšapstrādi, runas stilu pārnesot uz kādu konkrētu runātāju uz kuru ir trenēts runas atpazīšanas modelis.
Kopumā darbā tika noskaidrots, ka apmācot Whisper (Radford, Kim et al., 2022) runas atpazīšanas modeli uz konkrētu runātāju no VCTK (Veaux, Yamagishi et al., 2017) datu kopas, pēc tam veicot runas stila pārnesi ar FreeVC (Li, Tu et al., 2022) uz to pašu konkrēto runātāju, ir iespējams iegūt labākus rezultātus nekā tad, ja runas atpazīšanas modelis ir trenēts uz visas datu kopas un tam pirms tam nav veikta nekāda priekšapstrāde.
Rezultātu metriku uzlabojums ir sākot ar 34% no datu kopas runātāju līdz pat 91% no datu kopas runātāju. Vislabāko sniegumu parāda runas atpazīšanas modelis, kas trenēts uz p254 runātāju, kur, pārveidojot visus datu kopas runātājus uz p254 runātāja stilu, parāda 74% un 73% runātāju uzlabojumu vārdu kļūdas līmeņa un normalizētās vārdu kļūdas līmeņa metrikām un 86% un 91% runātāju uzlabojumu rakstzīmes kļūdas līmeņa un normalizētajai rakstzīmes kļūdas līmeņa metrikām. |
Keywords |
RUNAS ATPAZĪŠANA, PRIEKŠAPSTRĀDES METODES, RUNAS STILA PĀRNESE, RUNAS ATTĪRĪŠANA |
Keywords in English |
SPEECH RECOGNITION, PRE-PROCESSING METHODS, SPEECH STYLE TRANSFER, SPEECH ENHANCEMENT |
Language |
lv |
Year |
2023 |
Date and time of uploading |
30.05.2023 22:39:42 |