| Studiju veids |
bakalaura akadēmiskās studijas |
| Studiju programmas nosaukums |
Datorsistēmas |
| Nosaukums |
Multimodālo valodas modeļu izpēte un salīdzinājums multimodālā satura aprakstīšanai |
| Nosaukums angļu valodā |
Research and Comparison of Multimodal Language Models for the Description of Multimodal Content |
| Struktūrvienība |
33000 Datorzinātnes, informācijas tehnoloģijas un enerģētikas fakultāte |
| Darba vadītājs |
Sintija Petroviča-Kļaviņa |
| Recenzents |
Gints Jēkabsons |
| Anotācija |
Darbā tiek pētītas multimodālo valodu modeļu spējas identificēt un aprakstīt smalkas vizuālas atšķirības starp attēliem. Darba mērķis bija salīdzināt dažādus multimodālos valodas modeļus, piemēram, (GPT-4o, Gemini 2.5 Flash u.c.), izmantojot oriģinālu testēšanas metodoloģiju ar sintētiski ģenerētu datu kopu, kas ietvēra krāsas, pozīcijas un izmēra izmaiņas. Pētījuma rezultāti atklāja, ka tikai GPT-4o uzrādīja salīdzinoši augstāku un konsekventāku precizitāti (68.6%), kamēr pārējie modeļi, īpaši atvērtā koda risinājumi, saskārās ar būtiskām grūtībām, it sevišķi izmēra izmaiņu atpazīšanā. Visi modeļi korekti identificēja situācijas bez izmaiņām. Secināts, ka pašreizējiem modeļiem nepieciešami uzlabojumi, lai uzticami noteiktu sīkas vizuālas atšķirības.
Darba apjoms: 58 lapas, 72 attēli, 7 tabulas, 1 pielikums, 41 izmantotie informācijas avoti. |
| Atslēgas vārdi |
multimodālie valodas modeļi, attēlu analīze, vizuālo atšķirību noteikšana, modeļu salīdzināšana |
| Atslēgas vārdi angļu valodā |
multimodal language models, image analysis, visual difference detection, model comparison |
| Valoda |
lv |
| Gads |
2025 |
| Darba augšupielādes datums un laiks |
27.05.2025 13:54:48 |