Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids maģistra akadēmiskās studijas
Studiju programmas nosaukums Informācijas tehnoloģija
Nosaukums „Random Forest” algoritma un statistisko atribūtu izgūšanas metožu izmantošana tīmekļa surogātvietņu atklāšanai
Nosaukums angļu valodā Using Random Forest and Statistical Feature Extraction Methods for Web Spam Detection
Struktūrvienība 33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs Dr. habil. sc. comp. Arkādijs Borisovs
Recenzents Dr. sc. ing. Aleksandrs Vališevskis
Anotācija Tīmekļa surogātvietnes (TS) ir saturs, kas izveidots ar mērķi ļaunprātīgi manipulēt IMS ranžēšanas algoritmus. Šādā veidā, TS veidotāji cenšas nepamatoti aizņemt pirmās pozīcijas IMS meklēšanas rezultātu sarakstā un, tādejādi, palielināt savu portālu apmeklētāju skaitu, kā arī peļņu no konteksta reklāmas, preču un pakalpojumu tiešsaistes pārdošanas. Rezultātā, samazinās IMS meklēšanas rezultātu kvalitāte un darbības rentabilitāte, pasliktinās Interneta satura kvalitāte. Turklāt, tīmekļa lietotāji parasti uzticas IMS, tāpēc, atšķirībā no surogātpasta, ne vienmēr spēj atšķirt TS no leģitīmām lapām. TS atklāšanas metožu izpēte ir viens no svarīgākajiem izaicinājumiem informācijas meklēšanas un izguves jomā. Šī darba mērķis ir izstrādāt surogātvietņu atklāšanas pieeju, izmantojot statistiskās tīmekļa dokumentu atribūtu izgūšanas metodes un klasifikācijas algoritmu Random Forest. Mērķa sasniegšanai tika izvirzīti sekojoši uzdevumi: (1) izpētīt tīmekļa surogātvietņu jēdzienu un to veidošanas metodes; (2) izvēlēties un aprakstīt darbā izmantojamas statistiskās atribūtu izgūšanas metodes; (3) izstrādāt programmnodrošinājumu atribūtu izgūšanai no izmantojamās datu kopas un datu pirmapstrādei; (4) veikt atribūtu izgūšanu; (5) eksperimentāli novērtēt piedāvātās pieejas veiktspēju surogātvietņu atklāšanā. Rezultātā, ir piedāvāti, aprakstīti un izgūti 93 statistiskie atribūti, kuri raksturo UK2006 datu kopā esošās vietnes. Datu kopas attīrīšanai un statistisko atribūtu izgūšanai ir izstrādāta daudzkodolu procesoriem pielāgota programmatūra WebFilter, izmantojot kuru tika apstrādāti 3 000 000 HTML dokumentu. Veikti vairāki eksperimenti, kuru rezultātā tiek atpazīti līdz 87% no visām surogātvietnēm datu kopā, panākta klasifikācijas precizitāte 88%, F-mēra vērtība 0.912 un AUC metrikas vērtība vienāda ar 0.955. Piedāvātā pieeja kvalificētos pirmās vietas iegūšanai TS atklāšanas sacensībās Yahoo Web Spam Challenge 2007. Darba apjoms ir 96 lpp., 22 tabulas, 56 attēli un 3 pielikumi.
Atslēgas vārdi tīmekļa surogātvietņu atklāšana, Random Forest, SMOTE, statistiskie atribūti
Atslēgas vārdi angļu valodā Web spam detection, SMOTE, Random Forest, UK2006, Statistical attributes
Valoda lv
Gads 2011
Darba augšupielādes datums un laiks 20.06.2011 18:11:55