Improving Decision Making Capabilities of Large Language Models Using Iterative Prompt Mutations and Reward Function

Graduate papers

Search graduate papers

Description of the graduate paper

Form of studies	Master
Title of the study programm	Intelligent robotic systems
Title in original language	Lielo valodas modeļu lēmumu pieņemšanas spēju uzlabošana, izmantojot iteratīvas vaicājumu mutācijas un novērtējuma funkciju
Title in English	Improving Decision Making Capabilities of Large Language Models Using Iterative Prompt Mutations and Reward Function
Department	Faculty Of Computer Science Information Tehnology And Energy
Scientific advisor	Ēvalds Urtāns
Reviewer	Ilze Birzniece
Abstract	Arvien vairāk ir redzams pieaugums pētījumos, kas saistīti ar lielo valodas modeļu (LLM) spēju uzlabošanu neizmantojot papildus apmācību, bet izmantojot kādas uzvedņu veidošanas stratēģijas. Šīs stratēģijas ļauj modeļiem labāk pielāgoties dažādiem uzdevumiem, bet, lai arī pareizā uzvedņu atrašana sniedz labākus rezultātus, tas var būt laikietilpīgs process. Iespējams efektīvāk būtu izmantot mutācijas metodes vai no modeļa neatkarīgas atbildes novērtēšanas metodes. Darbā tika izstrādātas mutācijas un valodas modeļa atbildes novērtēšanas metodes uz trim matemātikas un loģikas uzdevumu datu kopām, un tika veikta to salīdzināšana ar eksistējošām citu pētījumu metodēm. Tika izmantotas piecas novērtējuma metodes un divas mutācijas metodes – statiskā, kas sākotnēji mutē uzdevuma uzvedni, kura paliek nemainīga visā datu kopas iterācijā, un dinamiskā mutācija, kur sākuma uzvedne tiek mainīta pie katra jautājuma. Katrai mutācijas metodei ir divas apakš metodes. Statiskajai mutācijai apakš metodes ir vienas atbildes metode, kur tika izvērtētas dažādas uzvedņu ievades iespējas un valodas modeļa izvades opcijas, un N atbilžu metode, kur katra atbilde tika atsevišķi vērtēta ar kādu no vērtēšanas metodēm. Dinamiskajai mutācijai apakš metodes ir mutācija pēc atbildes, kas veica mutāciju līdz tika sasniegta pareizā atbilde, un mutācija pēc vērtējuma, kas pie katra jautājuma ieguva vairākas atbildes uz vienu jautājumu un izvērtēja tās ar novērtēšanas metodēm. Tika noskaidrots, ka visas izveidotās metodes sniedza labākus rezultātus par jau eksistējošām metodēm. Statiskā mutācija ar vairāku atbilžu skaitu un to novērtēšanu sniedza 93.68% MMLU STEM datu kopai. Datu kopām TheoremaQA un MMLU STEM nākamā labākā metode bija dinamiskās mutācijas vairāku atbilžu metode (92.63% un 57.2%), bet AQuA-RAT statiskā vienas atbildes metode (87.8%). Vislabāko vērtētāja rezultātu sniedza cits valodas modelis kā vērtētājs, bet arī atlīdzības modeļu rezultāti no tā daudz neatšķīrās (0.4% - 3.2%). Vienas atbildes statiskajā mutācijā vislabāko rezultātu uzrādīja strukturētā izvade ar domu ķēdi. Darba pamattekstā ir 76 lappuses, 17 attēli, 33 tabulas, 13 pielikumi un 49 izmantotie literatūras avoti.
Keywords	LIELIE VALODAS MODEĻI, ATBILDES NOVĒRTĒJUMA FUNKCIJAS, UZVEDŅU MUTĀCIJA, LOĢIKAS UZDEVUMI
Keywords in English	LARGE LANGUAGE MODELS, RESPONSE EVALUATION FUNCTIONS, PROMPT MUTATION, LOGIC TASKS
Language	lv
Year	2025
Date and time of uploading	26.05.2025 21:14:40