Investigation of Graph Algorithms to Measure Similarities of Internet Users Browsing Behaviour

Graduate papers

Search graduate papers

Description of the graduate paper

Form of studies	Bachelor
Title of the study programm	Information Technology
Title in original language	Grafu algoritmu izpēte lietotāju Interneta pārlūkošanas ieradumu līdzības mērīšanai
Title in English	Investigation of Graph Algorithms to Measure Similarities of Internet Users Browsing Behaviour
Department	Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor	Dr. sc. ing. Jānis Grabis
Reviewer	Mg. sc. ing. Inese Šūpulniece
Abstract	Šis darbs ir mēģinājums izpētīt interneta lietotāju uzvedības modeļus ar galveno mērķi noteikt grupas ar līdzīgu izturēšanos un izpētīt, kā tie attiecas uz lietotāju darba un ārpusdarba aktivitātēm, izmantojot grafu algoritmu un statistikas instrumentus. Tas tiek panākts, meklējot atbilstošu algoritmu, lai salīdzinātu lietotāju pārlūkošanas uzvedības kokus, izveidojot līdzības grupas (klasterus), pamatojoties uz koka salīdzinājumu, un veicot dažādas analīzes. Bet ko tas īsti nozīmē salīdzināt divus kokus? Šajā darbā, tas nozīmē atrast līdzības starp kokiem, pamatojoties tikai uz to formu. Statistikas metode un vizualizācijas rīks tika izmantoti datu apstrādei un vizualizācijai. Lai iegūtu lietotāju mijiedarbību ar pārlūkprogrammu, tika izmantota automātiska un neuzkrītoša programmatūra. Programmatūra ir spējīga iegūt visas lietotāja mijiedarbības ar pārlūkprogrammu un nosūtīt tos uz serveri tālākai analīzei. Izmantojot dažādus vaicājumus, vajadzīgie dati tika iegūti un saglabāti failos, izmantojot paplašināmās iezīmēšanas valodu (XML). Vēlāk, kad milzīgs datu daudzums tika iegūts, bija nepieciešama programma, kas varētu iegūtos kokus salīdzināt. Nepastāv daudz eksistējošu algoritmu un programmu, un vairums no tiem nesalīdzina kokus balstoties tikai uz to formu. Šīs projekts ir vērsts uz īpašu grafu algoritmu, kas ļaus novērtēt līdzību starp diviem sakārtotiem un bez svara kokiem, ņemot vērā tikai to formu. TMatch lietojumprogramma tika izvēlēta, lai salīdzinātu lietotāju pārlūkošanas uzvedības kokus. Vislielākais izaicinājums bija lietojumprogrammas pielāgošana, lai tā spētu izveidot korelācijas matricu salīdzināšanas procesā laikā. Lai pārbaudītu un novērtētu ierosināto lietojumprogrammu, tā tika testēta, novērtējot veiksmes un neveiksmes scenārijus. IBM SPSS Statistics [1] programmatūra tika izmantota, lai palaistu uz izpildi galveno komponentu analīzi, ar mērķi iegūt kopu, kas demonstrētu dažādas lietotāju mijiedarbības kategorijas. Korelācijas matricas, kuras tika iegūtas iepriekšējā solī, tika izmantotas kā ievades faili, lai varētu sekmīgi palaist programmatūru. Tika izmantota divu veidu komponentu analīze - vienkārša galveno komponentu analīze un galveno komponentu analīzi, izmantojot rotācijas, kas ļāva panākt lielāku datu sadalīšanu. Diemžēl IBM programmatūras neļauj vizualizēt lietotāju mijiedarbību ar pārlūkprogrammu un saistītos kokus. Šī problēma tika atrisināta ar citas eksistējošas programmatūras palīdzību, kuras nosaukums ir NodeXL [2]. Tās mērķis bija vizualizēt iegūtos klasterus un saistītos kokus. Šī programmatūra pieprasa specifisku ievades faila formātu, kas tika iegūts, saglabājot IBM programmatūras izvades failu Comma Seperated Values jeb CSV (ar komatu atdalītas vērtības) formātā un pielietojot īpašu programmu, lai pārveidotu šo failu, lai tas tiktu atbalstīts ar NodeXL. Darba pēdējais solis bija izanalizēt pārlūkošanas veidus, kā arī sniegt īsu pārskatu lasītājam. Projekta lietderība tiek parādīts, apspriežot rezultātus un ar to saistītiem jaunākajiem pētījumiem, kas attiecas uz informāciju iegūšanu, izmeklējot lietotāju pārlūkošanas modeļus (veidus).
Keywords	Pārlūkošana uzvedība, koki, grafa algoritms, līdzība, klasteri, forma (kontūrs)
Keywords in English	Browsing behaviour, trees, graph algorithm, similarity, clusters, shape
Language	eng
Year	2011
Date and time of uploading	16.06.2011 16:13:04