Abstract |
Bakalaura darba ietvaros tika izstrādāta programmatūra k-vidējo un divizīvā hierarhiskā algoritma realizācijai. Ar programmatūras palīdzību tika veikta eksperimentēšana ar reālām datu kopām, lai varētu veikt salīdzinošo analīzi par algoritmu darbību augstas dimensionalitātes datos. Bakalaura darba mērķis izstrādāt programmatūru, ar kuru būtu iespējams analizēt algoritmu darbību augstas dimensionalitātes datos.
Darba mērķa sasniegšanai tika izpētīti augstāk minētie klasterizācijas algoritmu darbības principi, aprēķināti piemēri, izstrādāta programmatūra, veikti eksperimenti ar reālām datu kopām un veikta salīdzinošā analīze pēc izvirzītajiem kritērijiem: laiks, algoritmu veidotie klasteri, robustums un atbilstība reālajām klasēm.
Iegūtie rezultāti parāda, ka abi apskatītie algoritmi nav piemēroti klašu atklāšanai augstas dimensionalitātes datos, bet divizīvais hierarhiskais algoritms kopumā dod uzticamākus rezultātus, to arī apstiprina robustuma eksperimenti. Lai paaugstinātu k-vidējo algoritma veiktspēju, būtu jārealizē kāda no tā variācijām, kura novērstu sākotnējo centroīdu novietojuma problēmu. Divizīvā algoritma veiktspējas paaugstināšanai būtu nepieciešams veikt datu kopas informatīvāko atribūtu atlasi, lai samazinātu dimensionalitātes lāsta ietekmi, citādāk algoritms atrod tikai pašus atšķirīgākos objektus, tas pats arī ir attiecināms uz k-vidējo algoritmu. |