| Form of studies |
Bachelor |
| Title of the study programm |
Computer Systems |
| Title in original language |
Multimodālo valodas modeļu izpēte un salīdzinājums multimodālā satura aprakstīšanai |
| Title in English |
Research and Comparison of Multimodal Language Models for the Description of Multimodal Content |
| Department |
Faculty Of Computer Science Information Tehnology And Energy |
| Scientific advisor |
Sintija Petroviča-Kļaviņa |
| Reviewer |
Gints Jēkabsons |
| Abstract |
Darbā tiek pētītas multimodālo valodu modeļu spējas identificēt un aprakstīt smalkas vizuālas atšķirības starp attēliem. Darba mērķis bija salīdzināt dažādus multimodālos valodas modeļus, piemēram, (GPT-4o, Gemini 2.5 Flash u.c.), izmantojot oriģinālu testēšanas metodoloģiju ar sintētiski ģenerētu datu kopu, kas ietvēra krāsas, pozīcijas un izmēra izmaiņas. Pētījuma rezultāti atklāja, ka tikai GPT-4o uzrādīja salīdzinoši augstāku un konsekventāku precizitāti (68.6%), kamēr pārējie modeļi, īpaši atvērtā koda risinājumi, saskārās ar būtiskām grūtībām, it sevišķi izmēra izmaiņu atpazīšanā. Visi modeļi korekti identificēja situācijas bez izmaiņām. Secināts, ka pašreizējiem modeļiem nepieciešami uzlabojumi, lai uzticami noteiktu sīkas vizuālas atšķirības.
Darba apjoms: 58 lapas, 72 attēli, 7 tabulas, 1 pielikums, 41 izmantotie informācijas avoti. |
| Keywords |
multimodālie valodas modeļi, attēlu analīze, vizuālo atšķirību noteikšana, modeļu salīdzināšana |
| Keywords in English |
multimodal language models, image analysis, visual difference detection, model comparison |
| Language |
lv |
| Year |
2025 |
| Date and time of uploading |
27.05.2025 13:54:48 |