Form of studies |
Bachelor |
Title of the study programm |
Information Technology |
Title in original language |
Īsu laika rindu klasterizācijas izmantošanas iespēju izpēte bioinformātikas uzdevuma risināšanai |
Title in English |
Feasibility Analysis of Using Short Time Series Clustering in Solving Bioinformatics Problems |
Department |
Faculty Of Computer Science Information Tehnology And Energy |
Scientific advisor |
Mg. sc. ing. Arnis Kiršners |
Reviewer |
Mg. sc. ing. Egmonts Treiguts |
Abstract |
Bakalaura darbā tika izpētītas īsu laika rindu gēnu ekspresijas klasterizācijas izmantošanas iespējas bioinformātikas uzdevuma risināšanai, kā arī izvērtēta un salīdzināta ar dažādām klasterizācijas metodēm iegūto rezultātu precizitāte. Literatūras analīzes rezultāti tika atspoguļoti teorētiskā daļā, kur tiek aprakstīts par: datu ieguvi, datu tipiem, īsām laika rindas gēnu ekspresijam, datu pirmapstrādes metodēm un izmantotām klasterizācijas datu ieguves metodēm. Tika izpētītas rīkā STEM realizētās klasterizācijas STEM un k-vidējo metodes, ka arī tika izveidots rīka STEM apraksts. Datu analīzei bija izvēlēta datu kopa, kas sastāvēja no kuņģa šūnu reakcijām uz patogēnas baktērijas Helicobacter pylori ietekmi. Lai nebūtu jāpaļaujas uz eksperimenta rezultātā saņemto datu nejaušības pakāpi, bija izvēlēta testēšanas datu kopa, kas atšķīrās no apmācības datu kopas tikai ar laika rindu vērtību izmaiņām. Pēc datu apstrādes ar STEM programmas palīdzību, bija salīdzināta ar dažādām metodēm iegūto rezultātu precizitāte. Salīdzinot atšķirības starp statistiski nozīmīgā mainīgā minimālo un maksimālo vērtību, tika noskaidrots, kurai metodei šī starpība ir mazāka un kurai maksimālā vērtība atrodas pie pašas pieļaujamās robežas. Iegūtie rezultāti apkopoti grafikā. Tajā tiek paradīts kurai metodei ir augstāka gēnu kategorijas noteikšanas precizitāte attiecībā pret kopējo pievienoto gēnu skaitu.
Darba apjoms - 66 lpp., 6 tabulas, 50 attēli un 2 pielikumi. |
Keywords |
īsu laika rindas, datu ieguve, STEM, k-vidējo |
Keywords in English |
short time series, data mining, STEM, k-means |
Language |
lv |
Year |
2011 |
Date and time of uploading |
13.06.2011 14:34:02 |