Abstract |
Dažās tīmekļa lapās ir tabulas, bet tabulās ir dati. Būtībā tīmekļa lapas pirmkods sastāv no HTML tagiem un tagiem, kas izmantoti tabulai, piemēram, <table>, <tr> un <td>. Parsējot struktūru, tabulas datus var rasmot. Šis bakalaura darbs ir rakstīts par datu rasmošanas analīzi no tabulām ar cilnēm, kas atspoguļotas dažādās tīmekļa lapās. Pirmkārt, tiek izskatīta tīmekļa rasmošanas koncepcija un noteikumi, esošie rasmošanas rīki un programmēšanas valodas tīmekļa rasmošanai. Pēc tam, lai analizētu esošo rīku funkcionalitāti, PHP bibliotēka “phpQuery”, darbvirsmas lietojumprogramma “FMiner” un pārlūkprogrammas paplašinājums “Scraper” tiek izvēlēti kā piemēri no dažādiem esošajiem rīkiem un pārbaudīti, faktiski rasmojot datus no SSR lapas, CSR lapas, AJAX lapas, AngularJS lapas, lapām, kas iegūtas no tabulas, un vairākām tabulu lapām ar tām. Tāpat ar testu palīdzību tiek analizētas lapu struktūras un identificētas rīku problēmas. Un pēc testiem tiek piedāvātas dažas idejas instrumentu uzlabošanai. Konkrētāk, Selenium un PHP-webdriver tiek piedāvāts rasmot datus no dinamiskām lapām, 3 veidi, kā analizēt rasmotos datus, un JavaScript “Chart.js” tiek piedāvāts datu analīzei, vairākpavedienu datu skrāpēšana tiek piedāvāta, lai ātri rasmot datus. Un tad tiek pārbaudīta programma, kas izstrādāta PHP, balstoties uz piedāvātajām idejām. Programmas testā dati faktiski tiek rasmoti no lapām, kas tiek izmantotas 3 rīku testēšanai kopā ar to, lai redzētu, vai tas darbojas, kā paredzēts. Turklāt to salīdzina ar rīkiem, raugoties no tā, vai datus var vai nevar rasmot, cik ātri un vai rasmotos datus var analizēt vai ne. Un pēc tam tiek analizēti programmas testa rezultāti. Visbeidzot tiek rakstīti secinājumi un turpmākais darbs.
Šajā bakalaura darbā ir 55 lappuses, 18 attēli, 4 tabulas, 13 atsauces un 7 pielikumi. |