Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorsistēmas
Nosaukums Multimodālo valodas modeļu izpēte un salīdzinājums multimodālā satura aprakstīšanai
Nosaukums angļu valodā Research and Comparison of Multimodal Language Models for the Description of Multimodal Content
Struktūrvienība 33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs Sintija Petroviča-Kļaviņa
Recenzents Gints Jēkabsons
Anotācija Darbā tiek pētītas multimodālo valodu modeļu spējas identificēt un aprakstīt smalkas vizuālas atšķirības starp attēliem. Darba mērķis bija salīdzināt dažādus multimodālos valodas modeļus, piemēram, (GPT-4o, Gemini 2.5 Flash u.c.), izmantojot oriģinālu testēšanas metodoloģiju ar sintētiski ģenerētu datu kopu, kas ietvēra krāsas, pozīcijas un izmēra izmaiņas. Pētījuma rezultāti atklāja, ka tikai GPT-4o uzrādīja salīdzinoši augstāku un konsekventāku precizitāti (68.6%), kamēr pārējie modeļi, īpaši atvērtā koda risinājumi, saskārās ar būtiskām grūtībām, it sevišķi izmēra izmaiņu atpazīšanā. Visi modeļi korekti identificēja situācijas bez izmaiņām. Secināts, ka pašreizējiem modeļiem nepieciešami uzlabojumi, lai uzticami noteiktu sīkas vizuālas atšķirības. Darba apjoms: 58 lapas, 72 attēli, 7 tabulas, 1 pielikums, 41 izmantotie informācijas avoti.
Atslēgas vārdi multimodālie valodas modeļi, attēlu analīze, vizuālo atšķirību noteikšana, modeļu salīdzināšana
Atslēgas vārdi angļu valodā multimodal language models, image analysis, visual difference detection, model comparison
Valoda lv
Gads 2025
Darba augšupielādes datums un laiks 27.05.2025 13:54:48