Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Computer Systems
Title in original language Multimodālo valodas modeļu izpēte un salīdzinājums multimodālā satura aprakstīšanai
Title in English Research and Comparison of Multimodal Language Models for the Description of Multimodal Content
Department Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor Sintija Petroviča-Kļaviņa
Reviewer Gints Jēkabsons
Abstract Darbā tiek pētītas multimodālo valodu modeļu spējas identificēt un aprakstīt smalkas vizuālas atšķirības starp attēliem. Darba mērķis bija salīdzināt dažādus multimodālos valodas modeļus, piemēram, (GPT-4o, Gemini 2.5 Flash u.c.), izmantojot oriģinālu testēšanas metodoloģiju ar sintētiski ģenerētu datu kopu, kas ietvēra krāsas, pozīcijas un izmēra izmaiņas. Pētījuma rezultāti atklāja, ka tikai GPT-4o uzrādīja salīdzinoši augstāku un konsekventāku precizitāti (68.6%), kamēr pārējie modeļi, īpaši atvērtā koda risinājumi, saskārās ar būtiskām grūtībām, it sevišķi izmēra izmaiņu atpazīšanā. Visi modeļi korekti identificēja situācijas bez izmaiņām. Secināts, ka pašreizējiem modeļiem nepieciešami uzlabojumi, lai uzticami noteiktu sīkas vizuālas atšķirības. Darba apjoms: 58 lapas, 72 attēli, 7 tabulas, 1 pielikums, 41 izmantotie informācijas avoti.
Keywords multimodālie valodas modeļi, attēlu analīze, vizuālo atšķirību noteikšana, modeļu salīdzināšana
Keywords in English multimodal language models, image analysis, visual difference detection, model comparison
Language lv
Year 2025
Date and time of uploading 27.05.2025 13:54:48