Graduate papers
  
Description of the graduate paper
Form of studies Master
Title of the study programm Information Technology
Title in original language „Random Forest” algoritma un statistisko atribūtu izgūšanas metožu izmantošana tīmekļa surogātvietņu atklāšanai
Title in English Using Random Forest and Statistical Feature Extraction Methods for Web Spam Detection
Department 12100 Institute of Information Technology
Scientific advisor Dr. habil. sc. comp. Arkādijs Borisovs
Reviewer Dr. sc. ing. Aleksandrs Vališevskis
Abstract Tīmekļa surogātvietnes (TS) ir saturs, kas izveidots ar mērķi ļaunprātīgi manipulēt IMS ranžēšanas algoritmus. Šādā veidā, TS veidotāji cenšas nepamatoti aizņemt pirmās pozīcijas IMS meklēšanas rezultātu sarakstā un, tādejādi, palielināt savu portālu apmeklētāju skaitu, kā arī peļņu no konteksta reklāmas, preču un pakalpojumu tiešsaistes pārdošanas. Rezultātā, samazinās IMS meklēšanas rezultātu kvalitāte un darbības rentabilitāte, pasliktinās Interneta satura kvalitāte. Turklāt, tīmekļa lietotāji parasti uzticas IMS, tāpēc, atšķirībā no surogātpasta, ne vienmēr spēj atšķirt TS no leģitīmām lapām. TS atklāšanas metožu izpēte ir viens no svarīgākajiem izaicinājumiem informācijas meklēšanas un izguves jomā. Šī darba mērķis ir izstrādāt surogātvietņu atklāšanas pieeju, izmantojot statistiskās tīmekļa dokumentu atribūtu izgūšanas metodes un klasifikācijas algoritmu Random Forest. Mērķa sasniegšanai tika izvirzīti sekojoši uzdevumi: (1) izpētīt tīmekļa surogātvietņu jēdzienu un to veidošanas metodes; (2) izvēlēties un aprakstīt darbā izmantojamas statistiskās atribūtu izgūšanas metodes; (3) izstrādāt programmnodrošinājumu atribūtu izgūšanai no izmantojamās datu kopas un datu pirmapstrādei; (4) veikt atribūtu izgūšanu; (5) eksperimentāli novērtēt piedāvātās pieejas veiktspēju surogātvietņu atklāšanā. Rezultātā, ir piedāvāti, aprakstīti un izgūti 93 statistiskie atribūti, kuri raksturo UK2006 datu kopā esošās vietnes. Datu kopas attīrīšanai un statistisko atribūtu izgūšanai ir izstrādāta daudzkodolu procesoriem pielāgota programmatūra WebFilter, izmantojot kuru tika apstrādāti 3 000 000 HTML dokumentu. Veikti vairāki eksperimenti, kuru rezultātā tiek atpazīti līdz 87% no visām surogātvietnēm datu kopā, panākta klasifikācijas precizitāte 88%, F-mēra vērtība 0.912 un AUC metrikas vērtība vienāda ar 0.955. Piedāvātā pieeja kvalificētos pirmās vietas iegūšanai TS atklāšanas sacensībās Yahoo Web Spam Challenge 2007. Darba apjoms ir 96 lpp., 22 tabulas, 56 attēli un 3 pielikumi.
Keywords tīmekļa surogātvietņu atklāšana, Random Forest, SMOTE, statistiskie atribūti
Keywords in English Web spam detection, SMOTE, Random Forest, UK2006, Statistical attributes
Language lv
Year 2011
Date and time of uploading 20.06.2011 18:11:55