Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorzinātne un organizāciju tehnoloģijas
Nosaukums Metožu salīdzinājums automatizētu aptauju atvērto teksta atbilžu analīzei izglītības sektorā
Nosaukums angļu valodā Comparison of Methods for Automated Survey Text Response Analysis in Education Sector
Struktūrvienība 01B00 Rīgas Biznesa skola
Darba vadītājs Pēteris Paikens
Recenzents Iļja Afanasjevs
Anotācija Atgriezeniskās saites analīzes izglītības sektorā ir svarīga izglītības procesu uzlabošanai. Salīdzinot ar Likerta skalas jautājumiem, atvērto teksta atbilžu jautājumi var sniegt papildus detaļas, kas nav apspriestas aptaujā. Tajā pašā laikā ir nepieciešams manuāls darbs, lai analizētu atvērtās teksta atbildes. Šī pētījuma mērķis ir saprast, vai teksta klāsterizācija var tikt lietota kā rīks atvērto teksta atbilžu analīzei izglītības nozarē. Teksta klāsterizācija iekļauj piecus soļus – datu pirmsapstrādi, atbildes pārvēršanu numeriskā vektorā, attāluma mērīšanu starp vektoriem, klāsterizācijas algoritmu un novērtēšanu. Sākotnēji dažādas teksta vektorizācijas metodes, attāluma mērījumi un klāsterizācijas algoritmi tika salīdzināti, izmantojot Normalized Mutual Information un Adjusted Rand Index mērījumus. Lai saprastu, vai teksta klāsterizācija ir piemērots risinājums atvērto aptauju atbilžu analīzei, pēc tam, kad tika noteikts labākās metodes teksta vektorizācijai, attāluma mērījumiem, un klasterizācijas algoritmiem, tika mērīts atvērto atbilžu kategorizēšanas laiks starp nesakārtotiem datiem un klāsterētiem datiem, iesaistot 20 cilvēkus. Noslēgumā tika veikta kvalitatīvā analīze, lai identificētu praktiskus izaicinājumus un panākumus, kas saistīti ar klāsterizācijas procesa rezultātiem. Pētījumā izvelētā datu kopa sastāv no diviem jautājumiem - "Domājot par pēdējiem sešiem mēnešiem, kas jums ir licis justies neapmierinātam savā darbavietā?", "Domājot par pēdējiem sešiem mēnešiem, kas jums ir licies justies labi savā darbavietā?" un satur aptuveni 200 respondentu atbildes katram jautājumam. Pētījuma rezultāti rāda, ka lielie valodu modeļi sniedz labākus rezultātus, kā tradicionālas teksta vektorizācijas metodes, kā, piemēram, Bag-Of-Words un Word2Vec. Voyage-lite-01-instruct vektorizācijas modelis kombinācijā ar Expectation-Maximization vai Agglomerative klasterizācijas algoritmu, izmantojot Eiklīda attāluma metodi, sniedza labākos rezultātus. Cilvēku izvērtēšanas eksperimentam tika izvēlēts voyage-lite-01-instruct vektorizācijas modelis, Eiklīda attāllums un Expectation-Maximization klasterizācijas algoritms. Cilvēku novērtējuma rezultāti parādīja statistiski nozīmīgu atšķirību laikā, kas nepieciešams, lai kategorizētu atgriezeniskās saites vienai no datu kopām, kas atbildēja uz jautājumu “Domājot par pēdējiem sešiem mēnešiem, kas jums ir licies justies labi savā darbavietā?”. Kvalitatīvajā analīzē tika secināts, ka, ja datiem nav nepieciešams veikt pirmsapstrādi, izmantojot teksta klasterizāciju ir iespējams grupēt datus, balstoties uz atbilžu tematiku. Tāpat kvalitatīvajā analīzē tika secināts, ka eksistējošie izaicinājumi ir nepareiza klasifikācija, balstoties uz sākotnējo frāzējumu, izņēmumu iekļaušana klāsterī un līdzīgu atbilžu atrašanās vairākos klāsteros. Šis pētījums ir pirmais solis, lai izveidotu automatizētu risinājumu atgriezeniskās saites analīzei izglītības sektorā. Šis pētījums pierāda, ka ir iespējams statistiski nozīmīgi samazināt laiku atvērto atbilžu analīzei, izmantojot teksta klāsterizāciju. Šī pētījuma limitācijas ir neesošā teksta segmentācija datu pirmsapstrādē, neesošā tēmas modelēšana, lai nosauktu klāsterus, un tas, ka testēšana tika veikta tikai ar diviem jautājumiem. Lai pilnībā automatizētu atgriezeniskās saites teksta analīzi ir nepieciešams salīdzināt eksistējošās teksta segmentācijas un tēmas modelēšanas metodes, kā arī nepieciešami uzlabojumi klāstera skaita noteikšanai. Tāpat risinājumu nepieciešams testēt ar vairākām datu kopām. Šis bakalaura darbs ir rakstīts angļu valodā un sastāv no 84 lapām, iekļaujot 6 attēlus un 22 tabulām.
Atslēgas vārdi atgriezeniskās saites analīze, teksta klāsterizācija, izglītības nozare
Atslēgas vārdi angļu valodā feedback analysis, text clustering, Education sector
Valoda eng
Gads 2024
Darba augšupielādes datums un laiks 14.04.2024 23:27:37