Grafu algoritmu izpēte lietotāju Interneta pārlūkošanas ieradumu līdzības mērīšanai

Noslēguma darbu reģistrs

Noslēguma darbu meklēšana

Studiju darba apraksts

Studiju veids	bakalaura akadēmiskās studijas
Studiju programmas nosaukums	Informācijas tehnoloģija
Nosaukums	Grafu algoritmu izpēte lietotāju Interneta pārlūkošanas ieradumu līdzības mērīšanai
Nosaukums angļu valodā	Investigation of Graph Algorithms to Measure Similarities of Internet Users Browsing Behaviour
Struktūrvienība	33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs	Dr. sc. ing. Jānis Grabis
Recenzents	Mg. sc. ing. Inese Šūpulniece
Anotācija	Šis darbs ir mēģinājums izpētīt interneta lietotāju uzvedības modeļus ar galveno mērķi noteikt grupas ar līdzīgu izturēšanos un izpētīt, kā tie attiecas uz lietotāju darba un ārpusdarba aktivitātēm, izmantojot grafu algoritmu un statistikas instrumentus. Tas tiek panākts, meklējot atbilstošu algoritmu, lai salīdzinātu lietotāju pārlūkošanas uzvedības kokus, izveidojot līdzības grupas (klasterus), pamatojoties uz koka salīdzinājumu, un veicot dažādas analīzes. Bet ko tas īsti nozīmē salīdzināt divus kokus? Šajā darbā, tas nozīmē atrast līdzības starp kokiem, pamatojoties tikai uz to formu. Statistikas metode un vizualizācijas rīks tika izmantoti datu apstrādei un vizualizācijai. Lai iegūtu lietotāju mijiedarbību ar pārlūkprogrammu, tika izmantota automātiska un neuzkrītoša programmatūra. Programmatūra ir spējīga iegūt visas lietotāja mijiedarbības ar pārlūkprogrammu un nosūtīt tos uz serveri tālākai analīzei. Izmantojot dažādus vaicājumus, vajadzīgie dati tika iegūti un saglabāti failos, izmantojot paplašināmās iezīmēšanas valodu (XML). Vēlāk, kad milzīgs datu daudzums tika iegūts, bija nepieciešama programma, kas varētu iegūtos kokus salīdzināt. Nepastāv daudz eksistējošu algoritmu un programmu, un vairums no tiem nesalīdzina kokus balstoties tikai uz to formu. Šīs projekts ir vērsts uz īpašu grafu algoritmu, kas ļaus novērtēt līdzību starp diviem sakārtotiem un bez svara kokiem, ņemot vērā tikai to formu. TMatch lietojumprogramma tika izvēlēta, lai salīdzinātu lietotāju pārlūkošanas uzvedības kokus. Vislielākais izaicinājums bija lietojumprogrammas pielāgošana, lai tā spētu izveidot korelācijas matricu salīdzināšanas procesā laikā. Lai pārbaudītu un novērtētu ierosināto lietojumprogrammu, tā tika testēta, novērtējot veiksmes un neveiksmes scenārijus. IBM SPSS Statistics [1] programmatūra tika izmantota, lai palaistu uz izpildi galveno komponentu analīzi, ar mērķi iegūt kopu, kas demonstrētu dažādas lietotāju mijiedarbības kategorijas. Korelācijas matricas, kuras tika iegūtas iepriekšējā solī, tika izmantotas kā ievades faili, lai varētu sekmīgi palaist programmatūru. Tika izmantota divu veidu komponentu analīze - vienkārša galveno komponentu analīze un galveno komponentu analīzi, izmantojot rotācijas, kas ļāva panākt lielāku datu sadalīšanu. Diemžēl IBM programmatūras neļauj vizualizēt lietotāju mijiedarbību ar pārlūkprogrammu un saistītos kokus. Šī problēma tika atrisināta ar citas eksistējošas programmatūras palīdzību, kuras nosaukums ir NodeXL [2]. Tās mērķis bija vizualizēt iegūtos klasterus un saistītos kokus. Šī programmatūra pieprasa specifisku ievades faila formātu, kas tika iegūts, saglabājot IBM programmatūras izvades failu Comma Seperated Values jeb CSV (ar komatu atdalītas vērtības) formātā un pielietojot īpašu programmu, lai pārveidotu šo failu, lai tas tiktu atbalstīts ar NodeXL. Darba pēdējais solis bija izanalizēt pārlūkošanas veidus, kā arī sniegt īsu pārskatu lasītājam. Projekta lietderība tiek parādīts, apspriežot rezultātus un ar to saistītiem jaunākajiem pētījumiem, kas attiecas uz informāciju iegūšanu, izmeklējot lietotāju pārlūkošanas modeļus (veidus).
Atslēgas vārdi	Pārlūkošana uzvedība, koki, grafa algoritms, līdzība, klasteri, forma (kontūrs)
Atslēgas vārdi angļu valodā	Browsing behaviour, trees, graph algorithm, similarity, clusters, shape
Valoda	eng
Gads	2011
Darba augšupielādes datums un laiks	16.06.2011 16:13:04