Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums Datu rasmošanas realizācija tabulām ar cilnēm
Nosaukums angļu valodā Development of Data Scrapping from Tabular Tables
Struktūrvienība 33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs Vita Šakele
Recenzents Aleksejs Jurenoks
Anotācija Dažās tīmekļa lapās ir tabulas, bet tabulās ir dati. Būtībā tīmekļa lapas pirmkods sastāv no HTML tagiem un tagiem, kas izmantoti tabulai, piemēram, <table>, <tr> un <td>. Parsējot struktūru, tabulas datus var rasmot. Šis bakalaura darbs ir rakstīts par datu rasmošanas analīzi no tabulām ar cilnēm, kas atspoguļotas dažādās tīmekļa lapās. Pirmkārt, tiek izskatīta tīmekļa rasmošanas koncepcija un noteikumi, esošie rasmošanas rīki un programmēšanas valodas tīmekļa rasmošanai. Pēc tam, lai analizētu esošo rīku funkcionalitāti, PHP bibliotēka “phpQuery”, darbvirsmas lietojumprogramma “FMiner” un pārlūkprogrammas paplašinājums “Scraper” tiek izvēlēti kā piemēri no dažādiem esošajiem rīkiem un pārbaudīti, faktiski rasmojot datus no SSR lapas, CSR lapas, AJAX lapas, AngularJS lapas, lapām, kas iegūtas no tabulas, un vairākām tabulu lapām ar tām. Tāpat ar testu palīdzību tiek analizētas lapu struktūras un identificētas rīku problēmas. Un pēc testiem tiek piedāvātas dažas idejas instrumentu uzlabošanai. Konkrētāk, Selenium un PHP-webdriver tiek piedāvāts rasmot datus no dinamiskām lapām, 3 veidi, kā analizēt rasmotos datus, un JavaScript “Chart.js” tiek piedāvāts datu analīzei, vairākpavedienu datu skrāpēšana tiek piedāvāta, lai ātri rasmot datus. Un tad tiek pārbaudīta programma, kas izstrādāta PHP, balstoties uz piedāvātajām idejām. Programmas testā dati faktiski tiek rasmoti no lapām, kas tiek izmantotas 3 rīku testēšanai kopā ar to, lai redzētu, vai tas darbojas, kā paredzēts. Turklāt to salīdzina ar rīkiem, raugoties no tā, vai datus var vai nevar rasmot, cik ātri un vai rasmotos datus var analizēt vai ne. Un pēc tam tiek analizēti programmas testa rezultāti. Visbeidzot tiek rakstīti secinājumi un turpmākais darbs.   Šajā bakalaura darbā ir 55 lappuses, 18 attēli, 4 tabulas, 13 atsauces un 7 pielikumi.
Atslēgas vārdi RASMOŠANA, TĪMKEĻA RASMOŠANA, VAIRĀKPAVEDIENU DATU RASMOŠANA, SSR, CSR
Atslēgas vārdi angļu valodā SCRAPING, WEB SCRAPING, MULTI-THREADED DATA SCRAPING, SSR, CSR
Valoda eng
Gads 2023
Darba augšupielādes datums un laiks 02.01.2023 16:09:10