The Performance of Clustering Algorithms in High-dimensional Data

Graduate papers

Search graduate papers

Description of the graduate paper

Form of studies	Bachelor
Title of the study programm	Information Technology
Title in original language	Klasterizācijas algoritmu veiktspēja augstas dimensionalitātes datos
Title in English	The Performance of Clustering Algorithms in High-dimensional Data
Department	Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor	Mg. sc. ing. Inese Poļaka
Reviewer	Dr. sc. ing. Jurijs Korņijenko
Abstract	Bakalaura darba ietvaros tika izstrādāta programmatūra k-vidējo un divizīvā hierarhiskā algoritma realizācijai. Ar programmatūras palīdzību tika veikta eksperimentēšana ar reālām datu kopām, lai varētu veikt salīdzinošo analīzi par algoritmu darbību augstas dimensionalitātes datos. Bakalaura darba mērķis izstrādāt programmatūru, ar kuru būtu iespējams analizēt algoritmu darbību augstas dimensionalitātes datos. Darba mērķa sasniegšanai tika izpētīti augstāk minētie klasterizācijas algoritmu darbības principi, aprēķināti piemēri, izstrādāta programmatūra, veikti eksperimenti ar reālām datu kopām un veikta salīdzinošā analīze pēc izvirzītajiem kritērijiem: laiks, algoritmu veidotie klasteri, robustums un atbilstība reālajām klasēm. Iegūtie rezultāti parāda, ka abi apskatītie algoritmi nav piemēroti klašu atklāšanai augstas dimensionalitātes datos, bet divizīvais hierarhiskais algoritms kopumā dod uzticamākus rezultātus, to arī apstiprina robustuma eksperimenti. Lai paaugstinātu k-vidējo algoritma veiktspēju, būtu jārealizē kāda no tā variācijām, kura novērstu sākotnējo centroīdu novietojuma problēmu. Divizīvā algoritma veiktspējas paaugstināšanai būtu nepieciešams veikt datu kopas informatīvāko atribūtu atlasi, lai samazinātu dimensionalitātes lāsta ietekmi, citādāk algoritms atrod tikai pašus atšķirīgākos objektus, tas pats arī ir attiecināms uz k-vidējo algoritmu.
Keywords	Klasterizācija
Keywords in English	Clusterization
Language	lv
Year	2013
Date and time of uploading	10.06.2013 20:39:06