Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorzinātne un organizāciju tehnoloģijas
Nosaukums Spama, pikšķerēšanas un patiesu e-pastu noteikšana, izmantojot Naiva Beja klasifikatoru.
Nosaukums angļu valodā Spam, Phishing, and Legitimate Email Detection Using Naive Bayes Classifier.
Struktūrvienība 02C60 Rīgas Biznesa skola
Darba vadītājs Anatolijs Zencovs
Recenzents Igors Rodins
Anotācija Nevēlamie e-pasta ziņojumi, piemēram, surogātpasts un pikšķerēšana, ir kļuvuši par pieaugošu problēmu gan individuāliem lietotājiem, gan organizācijām, radot datu noplūdes, privātuma pārkāpumus un finansiālus zaudējumus. Tradicionālās metodes, piemēram, uz specifiskien noteikumiem balstītas sistēmas un melnie saraksti, vairs nav pietiekami efektīvas, jo kibernoziedznieki ir advancētāki savās pieejās. Šī pētījuma mērķis ir izmantot Naive Bayes klasifikatoru, lai klasificētu e-pastus trīs kategorijās: surogātpasts, pikšķerēšana un droši e-pasti. Naive Bayes klasifikators ir izvēlēts, jo tas ir viegli lietojams un efektīvs, ka arī, lai analizētu e-pasta saturu, tika izmantotas divas funkciju iegūšanas metodes: TF-IDF un BoW. Šī pētījuma galvenais mērķis ir izstrādāt efektīvu e-pasta klasifikācijas sistēmu, kas spēj atšķirt drošus e-pastus, surogātpastu un pikšķerēšanas e-pastus. Lai sasniegtu šos mērķus, pētījumā tika integrēta izskaidrojama mākslīgā intelekta (XAI) pieeja, kas ļauj lietotājam saprast e pasta klasifikācijas lēmumu pieņemšanas iemeslus, tādējādi veidojot uzticēšanos sistēmai. Šī raksta mērķis ir izveidot viedu un paplašināmu e-pasta filtrēšanas sistēmu, ko var izmantot dažādās lietojumprogrammās. Naive Bayes klasifikators tika apmācīts, izmantojot publiski pieejamas datu kopas, kas satur surogātpastu, pikšķerēšanu un drošus e-pastus. E-pasta teksts tika pārveidots skaitliskās vērtībās, izmantojot TF-IDF un BoW pieejas. Papildus tam, modelim tika pievienoti atslēgvārdi, kas īpaši saistīti ar surogātpastu un pikšķerēšanu, lai uzlabotu tā spēju identificēt šos e-pasta tipus. Naive Bayes klasifikators tika apmācīts, izmantojot publiski pieejamas datu kopas, kas satur surogātpastu, pikšķerēšanu un drošus e-pastus. E-pasta teksts tika pārveidots skaitliskās vērtībās, izmantojot TF-IDF un BoW pieejas. Papildus tam modelim tika pievienoti atslēgvārdi, kas īpaši saistīti ar surogātpastu un pikšķerēšanu, lai uzlabotu tā spēju identificēt šos e-pasta tipus. Rezultāti liecina, ka pielāgotais klasifikators precīzāk atklāja surogātpastu, pareizi klasificējot 97% surogātpasta e-pastu. Tomēr tas sastapās ar grūtībām pikšķerēšanas e-pastu noteikšanā, jo tas pareizi klasificēja tikai 24,8% no tiem. Savukārt divi komerciālie mākslīgā intelekta modeļi - Deepseek un Gemini - sniedza labākus rezultātus pikšķerēšanas noteikšanā, sasniedzot 87% un 98% precizitāti. Šī atšķirība uzsver pikšķerēšanas e-pastu noteikšanas sarežģītību, jo tie ir veidoti, lai atdarinātu drošus e-pasta ziņojumus. Šī pētījuma galvenais ieguldījums ir e-pasta klasifikatora izstrāde, kas balstās uz mašīnmācīšanos un ir efektīvs, ļaujot ietaupīt laiku. Turklāt izskaidrojama mākslīgā intelekta izmantošana palielina lietotāju izpratni par sistēmas lēmumu pieņemšanas procesu, kas veicina uzticēšanos. Tomēr jānorāda arī daži ierobežojumi, galvenokārt attiecībā uz klasifikatora vāju veiktspēju pikšķerēšanas uzbrukumu noteikšanā. Pētījums norāda, ka, izmantojot progresīvākas metodes, piemēram, kontekstuālas iegulšanas un anomāliju noteikšanu, sistēma varētu labāk identificēt sarežģītākus pikšķerēšanas uzbrukumus. Turpmākajos pētījumos varētu pievērsties arī modeļa uzlabošanai, iekļaujot reāllaika lietotāju atsauksmes un biežākas mācību mehānismus, lai risinātu jaunus draudus.
Atslēgas vārdi Naive Bayes, surogātpasta noteikšana, pikšķerēšanas e-pasti, e-pasta filtrēšana, mašīnmācīšanās.
Atslēgas vārdi angļu valodā Naive Bayes, spam detection, phishing emails, email filtering, machine learning.
Valoda eng
Gads 2025
Darba augšupielādes datums un laiks 13.04.2025 23:14:05