Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums Fokusētas tīmekļa rāpuļprogrammas izstrāde
Nosaukums angļu valodā Development of a Focused Web Crawler
Struktūrvienība 12300 Lietišķo datorsistēmu institūts
Darba vadītājs Gints Jēkabsons
Recenzents Imants Gorbāns, Dr. sc. administr., LU Datorikas fakultātes docents
Anotācija Tīmekļa rāpuļi veic rekursīvu tīmekļa pārmeklēšanu, lejupielādējot lapas un izgūstot no tām jaunas saites. Šāda pieeja ļauj ātri un efektīvi atrast lielu informācijas apjomu, taču tā nav efektīva specifiskas informācijas meklēšanā un uzkrāšanā. Šim nolūkam tiek izmantoti fokusētie tīmekļa rāpuļi, kas lapu apmeklēšanu un lejupielādi veic selektīvi, balstoties uz lietotāja definētiem kritērijiem. Darba mērķis ir izanalizēt fokusētās tīmekļa rāpuļošanas problēmu un tajā lietojamos algoritmus, izvērtēt un salīdzināt to efektivitāti un izstrādāt fokusēta tīmekļa rāpuļa prototipu. Darba analītiskajā daļā ir apskatīta vispārēja rāpuļošana, trīs populārākie klasificēšanas algoritmi un to novērtēšanas metodes. Praktiskajā daļā tika apmācīti un novērtēti klasificēšanas modeļi ar dažādiem atribūtu izmēriem, papildināts atvērtā koda StormCrawler rāpulis ar klasificēšanas modeļiem un demonstrēta izstrādātā rāpuļa darbība reālā vidē. Darba pamattekstā ir 40 lappuses, 18 attēli, 10 tabulas, 42 izmantoto literatūras avotu un 10 pielikumi. Atslēgvārdi – tīmekļa rāpuļošana, rāpuļprogrammatūra, klasificēšanas algoritmi, Naivais Baijess, Atbalstu Vektoru Mašīnas, C4.5.
Atslēgas vārdi tīmekļa rāpuļošana, rāpuļprogrammatūra, klasificēšanas algoritmi, Naivais Baijess, Atbalstu Vektoru Mašīnas, C4.5.
Atslēgas vārdi angļu valodā web crawling, crawler software, classification algorithms, Naïve Bayes, Support Vector Machines, C4.5.
Valoda lv
Gads 2020
Darba augšupielādes datums un laiks 15.06.2020 23:26:22