Comparison of Methods for Automated Survey Text Response Analysis in Education Sector

Graduate papers

Search graduate papers

Description of the graduate paper

Form of studies	Bachelor
Title of the study programm	Computer Science and Organizational Technologies
Title in original language	Metožu salīdzinājums automatizētu aptauju atvērto teksta atbilžu analīzei izglītības sektorā
Title in English	Comparison of Methods for Automated Survey Text Response Analysis in Education Sector
Department	Riga Business School
Scientific advisor	Pēteris Paikens
Reviewer	Iļja Afanasjevs
Abstract	Atgriezeniskās saites analīzes izglītības sektorā ir svarīga izglītības procesu uzlabošanai. Salīdzinot ar Likerta skalas jautājumiem, atvērto teksta atbilžu jautājumi var sniegt papildus detaļas, kas nav apspriestas aptaujā. Tajā pašā laikā ir nepieciešams manuāls darbs, lai analizētu atvērtās teksta atbildes. Šī pētījuma mērķis ir saprast, vai teksta klāsterizācija var tikt lietota kā rīks atvērto teksta atbilžu analīzei izglītības nozarē. Teksta klāsterizācija iekļauj piecus soļus – datu pirmsapstrādi, atbildes pārvēršanu numeriskā vektorā, attāluma mērīšanu starp vektoriem, klāsterizācijas algoritmu un novērtēšanu. Sākotnēji dažādas teksta vektorizācijas metodes, attāluma mērījumi un klāsterizācijas algoritmi tika salīdzināti, izmantojot Normalized Mutual Information un Adjusted Rand Index mērījumus. Lai saprastu, vai teksta klāsterizācija ir piemērots risinājums atvērto aptauju atbilžu analīzei, pēc tam, kad tika noteikts labākās metodes teksta vektorizācijai, attāluma mērījumiem, un klasterizācijas algoritmiem, tika mērīts atvērto atbilžu kategorizēšanas laiks starp nesakārtotiem datiem un klāsterētiem datiem, iesaistot 20 cilvēkus. Noslēgumā tika veikta kvalitatīvā analīze, lai identificētu praktiskus izaicinājumus un panākumus, kas saistīti ar klāsterizācijas procesa rezultātiem. Pētījumā izvelētā datu kopa sastāv no diviem jautājumiem - "Domājot par pēdējiem sešiem mēnešiem, kas jums ir licis justies neapmierinātam savā darbavietā?", "Domājot par pēdējiem sešiem mēnešiem, kas jums ir licies justies labi savā darbavietā?" un satur aptuveni 200 respondentu atbildes katram jautājumam. Pētījuma rezultāti rāda, ka lielie valodu modeļi sniedz labākus rezultātus, kā tradicionālas teksta vektorizācijas metodes, kā, piemēram, Bag-Of-Words un Word2Vec. Voyage-lite-01-instruct vektorizācijas modelis kombinācijā ar Expectation-Maximization vai Agglomerative klasterizācijas algoritmu, izmantojot Eiklīda attāluma metodi, sniedza labākos rezultātus. Cilvēku izvērtēšanas eksperimentam tika izvēlēts voyage-lite-01-instruct vektorizācijas modelis, Eiklīda attāllums un Expectation-Maximization klasterizācijas algoritms. Cilvēku novērtējuma rezultāti parādīja statistiski nozīmīgu atšķirību laikā, kas nepieciešams, lai kategorizētu atgriezeniskās saites vienai no datu kopām, kas atbildēja uz jautājumu “Domājot par pēdējiem sešiem mēnešiem, kas jums ir licies justies labi savā darbavietā?”. Kvalitatīvajā analīzē tika secināts, ka, ja datiem nav nepieciešams veikt pirmsapstrādi, izmantojot teksta klasterizāciju ir iespējams grupēt datus, balstoties uz atbilžu tematiku. Tāpat kvalitatīvajā analīzē tika secināts, ka eksistējošie izaicinājumi ir nepareiza klasifikācija, balstoties uz sākotnējo frāzējumu, izņēmumu iekļaušana klāsterī un līdzīgu atbilžu atrašanās vairākos klāsteros. Šis pētījums ir pirmais solis, lai izveidotu automatizētu risinājumu atgriezeniskās saites analīzei izglītības sektorā. Šis pētījums pierāda, ka ir iespējams statistiski nozīmīgi samazināt laiku atvērto atbilžu analīzei, izmantojot teksta klāsterizāciju. Šī pētījuma limitācijas ir neesošā teksta segmentācija datu pirmsapstrādē, neesošā tēmas modelēšana, lai nosauktu klāsterus, un tas, ka testēšana tika veikta tikai ar diviem jautājumiem. Lai pilnībā automatizētu atgriezeniskās saites teksta analīzi ir nepieciešams salīdzināt eksistējošās teksta segmentācijas un tēmas modelēšanas metodes, kā arī nepieciešami uzlabojumi klāstera skaita noteikšanai. Tāpat risinājumu nepieciešams testēt ar vairākām datu kopām. Šis bakalaura darbs ir rakstīts angļu valodā un sastāv no 84 lapām, iekļaujot 6 attēlus un 22 tabulām.
Keywords	atgriezeniskās saites analīze, teksta klāsterizācija, izglītības nozare
Keywords in English	feedback analysis, text clustering, Education sector
Language	eng
Year	2024
Date and time of uploading	14.04.2024 23:27:37