„Random Forest” algoritma un statistisko atribūtu izgūšanas metožu izmantošana tīmekļa surogātvietņu atklāšanai

Noslēguma darbu reģistrs

Noslēguma darbu meklēšana

Studiju darba apraksts

Studiju veids	maģistra akadēmiskās studijas
Studiju programmas nosaukums	Informācijas tehnoloģija
Nosaukums	„Random Forest” algoritma un statistisko atribūtu izgūšanas metožu izmantošana tīmekļa surogātvietņu atklāšanai
Nosaukums angļu valodā	Using Random Forest and Statistical Feature Extraction Methods for Web Spam Detection
Struktūrvienība	33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs	Dr. habil. sc. comp. Arkādijs Borisovs
Recenzents	Dr. sc. ing. Aleksandrs Vališevskis
Anotācija	Tīmekļa surogātvietnes (TS) ir saturs, kas izveidots ar mērķi ļaunprātīgi manipulēt IMS ranžēšanas algoritmus. Šādā veidā, TS veidotāji cenšas nepamatoti aizņemt pirmās pozīcijas IMS meklēšanas rezultātu sarakstā un, tādejādi, palielināt savu portālu apmeklētāju skaitu, kā arī peļņu no konteksta reklāmas, preču un pakalpojumu tiešsaistes pārdošanas. Rezultātā, samazinās IMS meklēšanas rezultātu kvalitāte un darbības rentabilitāte, pasliktinās Interneta satura kvalitāte. Turklāt, tīmekļa lietotāji parasti uzticas IMS, tāpēc, atšķirībā no surogātpasta, ne vienmēr spēj atšķirt TS no leģitīmām lapām. TS atklāšanas metožu izpēte ir viens no svarīgākajiem izaicinājumiem informācijas meklēšanas un izguves jomā. Šī darba mērķis ir izstrādāt surogātvietņu atklāšanas pieeju, izmantojot statistiskās tīmekļa dokumentu atribūtu izgūšanas metodes un klasifikācijas algoritmu Random Forest. Mērķa sasniegšanai tika izvirzīti sekojoši uzdevumi: (1) izpētīt tīmekļa surogātvietņu jēdzienu un to veidošanas metodes; (2) izvēlēties un aprakstīt darbā izmantojamas statistiskās atribūtu izgūšanas metodes; (3) izstrādāt programmnodrošinājumu atribūtu izgūšanai no izmantojamās datu kopas un datu pirmapstrādei; (4) veikt atribūtu izgūšanu; (5) eksperimentāli novērtēt piedāvātās pieejas veiktspēju surogātvietņu atklāšanā. Rezultātā, ir piedāvāti, aprakstīti un izgūti 93 statistiskie atribūti, kuri raksturo UK2006 datu kopā esošās vietnes. Datu kopas attīrīšanai un statistisko atribūtu izgūšanai ir izstrādāta daudzkodolu procesoriem pielāgota programmatūra WebFilter, izmantojot kuru tika apstrādāti 3 000 000 HTML dokumentu. Veikti vairāki eksperimenti, kuru rezultātā tiek atpazīti līdz 87% no visām surogātvietnēm datu kopā, panākta klasifikācijas precizitāte 88%, F-mēra vērtība 0.912 un AUC metrikas vērtība vienāda ar 0.955. Piedāvātā pieeja kvalificētos pirmās vietas iegūšanai TS atklāšanas sacensībās Yahoo Web Spam Challenge 2007. Darba apjoms ir 96 lpp., 22 tabulas, 56 attēli un 3 pielikumi.
Atslēgas vārdi	tīmekļa surogātvietņu atklāšana, Random Forest, SMOTE, statistiskie atribūti
Atslēgas vārdi angļu valodā	Web spam detection, SMOTE, Random Forest, UK2006, Statistical attributes
Valoda	lv
Gads	2011
Darba augšupielādes datums un laiks	20.06.2011 18:11:55