| Abstract |
Nevēlamie e-pasta ziņojumi, piemēram, surogātpasts un pikšķerēšana, ir kļuvuši par
pieaugošu problēmu gan individuāliem lietotājiem, gan organizācijām, radot datu noplūdes,
privātuma pārkāpumus un finansiālus zaudējumus. Tradicionālās metodes, piemēram, uz
specifiskien noteikumiem balstītas sistēmas un melnie saraksti, vairs nav pietiekami efektīvas, jo
kibernoziedznieki ir advancētāki savās pieejās. Šī pētījuma mērķis ir izmantot Naive Bayes
klasifikatoru, lai klasificētu e-pastus trīs kategorijās: surogātpasts, pikšķerēšana un droši e-pasti.
Naive Bayes klasifikators ir izvēlēts, jo tas ir viegli lietojams un efektīvs, ka arī, lai analizētu e-pasta
saturu, tika izmantotas divas funkciju iegūšanas metodes: TF-IDF un BoW.
Šī pētījuma galvenais mērķis ir izstrādāt efektīvu e-pasta klasifikācijas sistēmu, kas spēj
atšķirt drošus e-pastus, surogātpastu un pikšķerēšanas e-pastus. Lai sasniegtu šos mērķus,
pētījumā tika integrēta izskaidrojama mākslīgā intelekta (XAI) pieeja, kas ļauj lietotājam saprast e
pasta klasifikācijas lēmumu pieņemšanas iemeslus, tādējādi veidojot uzticēšanos sistēmai. Šī
raksta mērķis ir izveidot viedu un paplašināmu e-pasta filtrēšanas sistēmu, ko var izmantot
dažādās lietojumprogrammās.
Naive Bayes klasifikators tika apmācīts, izmantojot publiski pieejamas datu kopas, kas
satur surogātpastu, pikšķerēšanu un drošus e-pastus. E-pasta teksts tika pārveidots skaitliskās
vērtībās, izmantojot TF-IDF un BoW pieejas. Papildus tam, modelim tika pievienoti atslēgvārdi, kas
īpaši saistīti ar surogātpastu un pikšķerēšanu, lai uzlabotu tā spēju identificēt šos e-pasta tipus.
Naive Bayes klasifikators tika apmācīts, izmantojot publiski pieejamas datu kopas, kas satur
surogātpastu, pikšķerēšanu un drošus e-pastus. E-pasta teksts tika pārveidots skaitliskās vērtībās,
izmantojot TF-IDF un BoW pieejas. Papildus tam modelim tika pievienoti atslēgvārdi, kas īpaši
saistīti ar surogātpastu un pikšķerēšanu, lai uzlabotu tā spēju identificēt šos e-pasta tipus.
Rezultāti liecina, ka pielāgotais klasifikators precīzāk atklāja surogātpastu, pareizi
klasificējot 97% surogātpasta e-pastu. Tomēr tas sastapās ar grūtībām pikšķerēšanas e-pastu
noteikšanā, jo tas pareizi klasificēja tikai 24,8% no tiem. Savukārt divi komerciālie mākslīgā
intelekta modeļi - Deepseek un Gemini - sniedza labākus rezultātus pikšķerēšanas noteikšanā,
sasniedzot 87% un 98% precizitāti. Šī atšķirība uzsver pikšķerēšanas e-pastu noteikšanas
sarežģītību, jo tie ir veidoti, lai atdarinātu drošus e-pasta ziņojumus. Šī pētījuma galvenais
ieguldījums ir e-pasta klasifikatora izstrāde, kas balstās uz mašīnmācīšanos un ir efektīvs, ļaujot
ietaupīt laiku. Turklāt izskaidrojama mākslīgā intelekta izmantošana palielina lietotāju izpratni par
sistēmas lēmumu pieņemšanas procesu, kas veicina uzticēšanos.
Tomēr jānorāda arī daži ierobežojumi, galvenokārt attiecībā uz klasifikatora vāju veiktspēju
pikšķerēšanas uzbrukumu noteikšanā. Pētījums norāda, ka, izmantojot progresīvākas metodes,
piemēram, kontekstuālas iegulšanas un anomāliju noteikšanu, sistēma varētu labāk identificēt
sarežģītākus pikšķerēšanas uzbrukumus. Turpmākajos pētījumos varētu pievērsties arī modeļa
uzlabošanai, iekļaujot reāllaika lietotāju atsauksmes un biežākas mācību mehānismus, lai risinātu
jaunus draudus. |