Multimodālo valodas modeļu izpēte un salīdzinājums multimodālā satura aprakstīšanai

Noslēguma darbu reģistrs

Noslēguma darbu meklēšana

Studiju darba apraksts

Studiju veids	bakalaura akadēmiskās studijas
Studiju programmas nosaukums	Datorsistēmas
Nosaukums	Multimodālo valodas modeļu izpēte un salīdzinājums multimodālā satura aprakstīšanai
Nosaukums angļu valodā	Research and Comparison of Multimodal Language Models for the Description of Multimodal Content
Struktūrvienība	33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte
Darba vadītājs	Sintija Petroviča-Kļaviņa
Recenzents	Gints Jēkabsons
Anotācija	Darbā tiek pētītas multimodālo valodu modeļu spējas identificēt un aprakstīt smalkas vizuālas atšķirības starp attēliem. Darba mērķis bija salīdzināt dažādus multimodālos valodas modeļus, piemēram, (GPT-4o, Gemini 2.5 Flash u.c.), izmantojot oriģinālu testēšanas metodoloģiju ar sintētiski ģenerētu datu kopu, kas ietvēra krāsas, pozīcijas un izmēra izmaiņas. Pētījuma rezultāti atklāja, ka tikai GPT-4o uzrādīja salīdzinoši augstāku un konsekventāku precizitāti (68.6%), kamēr pārējie modeļi, īpaši atvērtā koda risinājumi, saskārās ar būtiskām grūtībām, it sevišķi izmēra izmaiņu atpazīšanā. Visi modeļi korekti identificēja situācijas bez izmaiņām. Secināts, ka pašreizējiem modeļiem nepieciešami uzlabojumi, lai uzticami noteiktu sīkas vizuālas atšķirības. Darba apjoms: 58 lapas, 72 attēli, 7 tabulas, 1 pielikums, 41 izmantotie informācijas avoti.
Atslēgas vārdi	multimodālie valodas modeļi, attēlu analīze, vizuālo atšķirību noteikšana, modeļu salīdzināšana
Atslēgas vārdi angļu valodā	multimodal language models, image analysis, visual difference detection, model comparison
Valoda	lv
Gads	2025
Darba augšupielādes datums un laiks	27.05.2025 13:54:48