Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Informācijas tehnoloģija
Nosaukums Klasterizācijas algoritmu veiktspēja augstas dimensionalitātes datos
Nosaukums angļu valodā The Performance of Clustering Algorithms in High-dimensional Data
Struktūrvienība 12100 Informācijas tehnoloģijas institūts
Darba vadītājs Mg. sc. ing. Inese Poļaka
Recenzents Dr. sc. ing. Jurijs Korņijenko
Anotācija Bakalaura darba ietvaros tika izstrādāta programmatūra k-vidējo un divizīvā hierarhiskā algoritma realizācijai. Ar programmatūras palīdzību tika veikta eksperimentēšana ar reālām datu kopām, lai varētu veikt salīdzinošo analīzi par algoritmu darbību augstas dimensionalitātes datos. Bakalaura darba mērķis izstrādāt programmatūru, ar kuru būtu iespējams analizēt algoritmu darbību augstas dimensionalitātes datos. Darba mērķa sasniegšanai tika izpētīti augstāk minētie klasterizācijas algoritmu darbības principi, aprēķināti piemēri, izstrādāta programmatūra, veikti eksperimenti ar reālām datu kopām un veikta salīdzinošā analīze pēc izvirzītajiem kritērijiem: laiks, algoritmu veidotie klasteri, robustums un atbilstība reālajām klasēm. Iegūtie rezultāti parāda, ka abi apskatītie algoritmi nav piemēroti klašu atklāšanai augstas dimensionalitātes datos, bet divizīvais hierarhiskais algoritms kopumā dod uzticamākus rezultātus, to arī apstiprina robustuma eksperimenti. Lai paaugstinātu k-vidējo algoritma veiktspēju, būtu jārealizē kāda no tā variācijām, kura novērstu sākotnējo centroīdu novietojuma problēmu. Divizīvā algoritma veiktspējas paaugstināšanai būtu nepieciešams veikt datu kopas informatīvāko atribūtu atlasi, lai samazinātu dimensionalitātes lāsta ietekmi, citādāk algoritms atrod tikai pašus atšķirīgākos objektus, tas pats arī ir attiecināms uz k-vidējo algoritmu.
Atslēgas vārdi Klasterizācija
Atslēgas vārdi angļu valodā Clusterization
Valoda lv
Gads 2013
Darba augšupielādes datums un laiks 10.06.2013 20:39:06