Development of a Machine Learning Based Network Traffic Analysis Methodology

Graduate papers

Search graduate papers

Description of the graduate paper

Form of studies	Master
Title of the study programm	Information Technology
Title in original language	Uz mašīnmācīšanos balstītas tīkla trafika analīzes metodoloģijas izstrāde
Title in English	Development of a Machine Learning Based Network Traffic Analysis Methodology
Department	Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor	Inese Poļaka
Reviewer	Henrihs Gorskis
Abstract	COVID-19 pandēmijas laikā ir pieaugusi nepieciešamība pēc biznesa procesu digitalizācijas. Līdz ar to ir arī palielinājies kiberuzbrukumu skaits, kas negatīvi ietekmē biznesu. Viens no veidiem kā atklāt kiberdraudus sistēmā ir veikt tīkla trafika analīzi, izmantojot automatizētās metodes. Mašīnmācīšanās algoritmi spēj nodrošināt datu analīzes automatizāciju. Maģistra darba mērķis ir iepazīties ar kiberdraudu atklāšanas esošajiem risinājumiem, praktiski tos novērtēt un piedāvāt metodoloģijas uzlabojumus. Lai sasniegtu izvirzīto mērķi, tika izvēlēta CICIDS-2017 ielaušanās noteikšanas novērtēšanas datu kopa un veikta tās priekšapstrāde. Šī datu kopa tika izmantota mašīnmācīšanās klasifikatoru apmācībai un testēšanai. Dažādi klasifikatori tika apmācīti katra uzbrukuma veida binārajai klasifikācijai un pēc piemērotāko klasifikatoru izvēles tie tika apmācīti visu uzbrukuma veidu binārajai klasifikācijai un daudzklašu klasifikācijai, lai izvēlētos piemērotākos klasifikatorus mašīnmācīšanās ansambļa izveidei. Binārās klasifikācijas mašīnmācīšanās ansamblis sastāvēja no gadījuma meža, 3 dažādu veidu lēmumu koka, XGBoost un ārkārtīgi randomizētu koku klasifikatora. Daudzklašu klasifikācijas mašīnmācīšanās ansamblis sastāvēja no visiem iepriekš minētajiem klasifikatoriem, izņemot XGBoost klasifikatoru. Binārās klasifikācijas gadījumā mašīnmācīšanās ansamblis sniedz testa datiem 0,9997 lielu precizitāti, 0,9994 pozitīvo prognostisko vērtību, 0,9994 F1 mēru, 0,9995 jutīgumu un 0,9997 specifiskumu. Apmācības laiks ir 449,5 sekundes, bet testēšanas ātrums ir 32768 ieraksti/sekundē. Daudzklašu klasifikācijas mašīnmācīšanās ansamblis sniedz testa datiem 0,9991 precizitāti, apmācības laiku 1671,39 sekundes un testēšanas ātrumu 7695 ieraksti/sekundē. Pārējie mēri tika iegūti katram uzbrukuma veidam, vidēji iegūstot, ka pozitīvā prognostiskā vērtība ir 0,999, jutīgums 0,979 un F1 mērs 0,984. Noslēguma darba rezultātā tika izstrādāta metodoloģija piemērotāko klasifikatoru izvēlei mašīnmācīšanās ansambļa izveidei.
Keywords	tīkla trafika analīze, binārā klasifikācija, daudzklašu klasifikācija, atribūtu izvēle, mašīnmācīšanās ansamblis, metodoloģija
Keywords in English	network traffic analysis, binary classification, multiclass classification, feature selection, machine learning ensemble, methodology
Language	lv
Year	2022
Date and time of uploading	26.05.2022 13:41:02