Anotācija |
Mūsdienās, kad internets ir pārpildīts ar milzīgiem tekstveida datu apjomiem, ir nepieciešami jauni veidi informācijas strukturēšanai un meklēšanai, piesaistot tai kontekstu, tādā veidā atvieglojot informācijas atrašanu un uztveri, kā arī padarot to lietderīgāku. Viens no tādiem kontekstiem ir ģeogrāfiskais konteksts. Bakalaura darbs ir veltīts automātiskas tekstveida datu ģeokodēšanas problēmas un to risinājumu pētīšanai.
Darbā tiek apskatītas metodes nestrukturizētu tekstu ģeokodēšanai, ļaujot tekstā atpazīt vietvārdus un piesaistīt tiem ģeogrāfiskās koordinātas, kā arī citu informāciju, piemēram, aprakstus, attēlus vai saites uz papildinformāciju. Bakalaura darbā tika izvēlēta tā saucamā ārējā vietvārdu atpazīšanas metode, kas balstās uz ārējas vietvārdu datubāzes izmantošanu.
Bakalaura darba gaitā, pamatojoties uz pētījumiem, tika izstrādāta metodika un sistēmas prototips, kas spēj automātiskā režīmā analizēt tekstus latviešu valodā, atpazīt tajos ģeogrāfisku informāciju un iezīmēt vietvārdu nosaukumus. Darbā ir aprakstīti galvenie ģeokodēšanas metodikas principi un ceļi, kā šie principi ir realizēti izstrādātās sistēmas prototipā. Tika veikta izstrādātās metodikas un sistēmas prototipa empīriska novērtēšana ar reāliem ziņu rakstiem.
Pētījuma rezultāti un sistēmas prototips var tikt izmantoti, kā automatizēta pieeja tekstu grupēšanai pēc ģeogrāfiskā konteksta (piemēram, ziņu portālos). Šāda sistēma var jebkādos tekstos ģeogrāfiskas vietas apzīmējošiem vārdiem automātiski piesaistīt ģeogrāfisku informāciju (koordinātas, adreses, ģeokodētus attēlus un video, detalizētus aprakstus, saites uz papildu informāciju u.c.). Atrastie ģeogrāfiskie nosaukumi var būt attēloti uz ģeogrāfiskās kartes. Tas viss ļauj lietotājam gan saņemt tekstam atbilstošu ģeogrāfisko papildinformāciju, gan arī veikt tekstu meklēšanu pēc augstāk minētajiem ģeogrāfiskajiem datiem.
Bakalaura darbs satur ievadu, 4 nodaļas, nobeigumu, literatūras sarakstu (30 nosaukums), 22 attēlus, 5 tabulas, 1 pielikumu, kopā 60 lappuses. |