Using Random Forest and Statistical Feature Extraction Methods for Web Spam Detection

Graduate papers

Search graduate papers

Description of the graduate paper

Form of studies	Master
Title of the study programm	Information Technology
Title in original language	„Random Forest” algoritma un statistisko atribūtu izgūšanas metožu izmantošana tīmekļa surogātvietņu atklāšanai
Title in English	Using Random Forest and Statistical Feature Extraction Methods for Web Spam Detection
Department	Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor	Dr. habil. sc. comp. Arkādijs Borisovs
Reviewer	Dr. sc. ing. Aleksandrs Vališevskis
Abstract	Tīmekļa surogātvietnes (TS) ir saturs, kas izveidots ar mērķi ļaunprātīgi manipulēt IMS ranžēšanas algoritmus. Šādā veidā, TS veidotāji cenšas nepamatoti aizņemt pirmās pozīcijas IMS meklēšanas rezultātu sarakstā un, tādejādi, palielināt savu portālu apmeklētāju skaitu, kā arī peļņu no konteksta reklāmas, preču un pakalpojumu tiešsaistes pārdošanas. Rezultātā, samazinās IMS meklēšanas rezultātu kvalitāte un darbības rentabilitāte, pasliktinās Interneta satura kvalitāte. Turklāt, tīmekļa lietotāji parasti uzticas IMS, tāpēc, atšķirībā no surogātpasta, ne vienmēr spēj atšķirt TS no leģitīmām lapām. TS atklāšanas metožu izpēte ir viens no svarīgākajiem izaicinājumiem informācijas meklēšanas un izguves jomā. Šī darba mērķis ir izstrādāt surogātvietņu atklāšanas pieeju, izmantojot statistiskās tīmekļa dokumentu atribūtu izgūšanas metodes un klasifikācijas algoritmu Random Forest. Mērķa sasniegšanai tika izvirzīti sekojoši uzdevumi: (1) izpētīt tīmekļa surogātvietņu jēdzienu un to veidošanas metodes; (2) izvēlēties un aprakstīt darbā izmantojamas statistiskās atribūtu izgūšanas metodes; (3) izstrādāt programmnodrošinājumu atribūtu izgūšanai no izmantojamās datu kopas un datu pirmapstrādei; (4) veikt atribūtu izgūšanu; (5) eksperimentāli novērtēt piedāvātās pieejas veiktspēju surogātvietņu atklāšanā. Rezultātā, ir piedāvāti, aprakstīti un izgūti 93 statistiskie atribūti, kuri raksturo UK2006 datu kopā esošās vietnes. Datu kopas attīrīšanai un statistisko atribūtu izgūšanai ir izstrādāta daudzkodolu procesoriem pielāgota programmatūra WebFilter, izmantojot kuru tika apstrādāti 3 000 000 HTML dokumentu. Veikti vairāki eksperimenti, kuru rezultātā tiek atpazīti līdz 87% no visām surogātvietnēm datu kopā, panākta klasifikācijas precizitāte 88%, F-mēra vērtība 0.912 un AUC metrikas vērtība vienāda ar 0.955. Piedāvātā pieeja kvalificētos pirmās vietas iegūšanai TS atklāšanas sacensībās Yahoo Web Spam Challenge 2007. Darba apjoms ir 96 lpp., 22 tabulas, 56 attēli un 3 pielikumi.
Keywords	tīmekļa surogātvietņu atklāšana, Random Forest, SMOTE, statistiskie atribūti
Keywords in English	Web spam detection, SMOTE, Random Forest, UK2006, Statistical attributes
Language	lv
Year	2011
Date and time of uploading	20.06.2011 18:11:55