Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Information Technology
Title in original language Klasterizācijas algoritmu veiktspēja augstas dimensionalitātes datos
Title in English The Performance of Clustering Algorithms in High-dimensional Data
Department 12100 Institute of Information Technology
Scientific advisor Mg. sc. ing. Inese Poļaka
Reviewer Dr. sc. ing. Jurijs Korņijenko
Abstract Bakalaura darba ietvaros tika izstrādāta programmatūra k-vidējo un divizīvā hierarhiskā algoritma realizācijai. Ar programmatūras palīdzību tika veikta eksperimentēšana ar reālām datu kopām, lai varētu veikt salīdzinošo analīzi par algoritmu darbību augstas dimensionalitātes datos. Bakalaura darba mērķis izstrādāt programmatūru, ar kuru būtu iespējams analizēt algoritmu darbību augstas dimensionalitātes datos. Darba mērķa sasniegšanai tika izpētīti augstāk minētie klasterizācijas algoritmu darbības principi, aprēķināti piemēri, izstrādāta programmatūra, veikti eksperimenti ar reālām datu kopām un veikta salīdzinošā analīze pēc izvirzītajiem kritērijiem: laiks, algoritmu veidotie klasteri, robustums un atbilstība reālajām klasēm. Iegūtie rezultāti parāda, ka abi apskatītie algoritmi nav piemēroti klašu atklāšanai augstas dimensionalitātes datos, bet divizīvais hierarhiskais algoritms kopumā dod uzticamākus rezultātus, to arī apstiprina robustuma eksperimenti. Lai paaugstinātu k-vidējo algoritma veiktspēju, būtu jārealizē kāda no tā variācijām, kura novērstu sākotnējo centroīdu novietojuma problēmu. Divizīvā algoritma veiktspējas paaugstināšanai būtu nepieciešams veikt datu kopas informatīvāko atribūtu atlasi, lai samazinātu dimensionalitātes lāsta ietekmi, citādāk algoritms atrod tikai pašus atšķirīgākos objektus, tas pats arī ir attiecināms uz k-vidējo algoritmu.
Keywords Klasterizācija
Keywords in English Clusterization
Language lv
Year 2013
Date and time of uploading 10.06.2013 20:39:06