Graduate papers
  
Description of the graduate paper
Form of studies Bachelor
Title of the study programm Computer Science and Organizational Technologies
Title in original language Pokera spēles optimizācija, izmantojot MI: mācīšanās no pieredzes un nepilnīgas informācijas.
Title in English Optimization of Poker Play Through AI: Learning from Experience and Incomplete Information.
Department Riga Business School
Scientific advisor Valdis Saulespurēns
Reviewer Artūrs Vrubļevskis
Abstract Pokers rada būtisku izaicinājumu mākslīgajam intelektam (MI), jo tā ir spēle ar nepilnīgu informāciju un sarežģītiem lēmumu pieņemšanas procesiem. Tradicionālās MI metodes bieži saskaras ar grūtībām, efektīvi apstrādājot slēptās spēlētāju stratēģijas un nezināmas kārtis. Šī bakalaura darba mērķis bija izstrādāt efektīvu MI sistēmu, kas spēj spēlēt pokeru konkurētspējīgā līmenī, izmantojot pastiprinošo mācīšanos, konkrēti – Proksimālās politikas optimizācijas (PPO) algoritmu, kombinējot to ar pašspēles tehnikām. Pētījuma laikā tika izmantots PPO algoritms, kas realizēts simulētā pokera vidē PyPokerEngine. MI tika trenēts ar pašspēles metodi, kurā tas nepārtraukti uzlaboja savas prasmes, spēlējot pret sevi. Kritiskie treniņu parametri, piemēram, mācīšanās ātrums (learning rate), entropijas koeficients un partijas izmērs (batch size), tika rūpīgi pielāgoti, lai optimizētu apmācības procesu un stratēģisko sniegumu. Pētījuma rezultāti parādīja būtisku MI snieguma uzlabojumu pēc trenēšanas. Pirms treniņa MI sasniedza vidējo uzvaru rādītāju aptuveni 36,17% pret noteikumiem balstītu pretinieku. Pēc 50 000 pašspēles epizodēm, MI uzvaru rādītājs būtiski pieauga līdz aptuveni 48,57%. Statistiskā analīze apstiprināja, ka šis uzlabojums ir statistiski nozīmīgs (p-vērtība < 0.05), kas apstiprina PPO metodes efektivitāti. Rezultāti apliecina PPO un pašspēles stratēģiju efektivitāti, apmācot MI spēlēm ar nepilnīgu informāciju. Šī pieeja ne tikai uzlabo spēļu MI, bet sniedz arī ieskatu stratēģiskās lēmumu pieņemšanas uzlabošanā citās jomās, piemēram, finanšu sektorā, kiberdrošībā un veselības aprūpē. Lai gan sākotnējais modelis uzrādīja skaidru progresu, vēlākie uzlabojumi – tostarp novērojumu lauka paplašināšana, darbību klāsta palielināšana un atsevišķu politikas/vērtības tīklu ieviešana – nesniedza pozitīvus rezultātus. Šie uzlabojumi un to ietekme detalizēti aprakstīti praktiskajā daļā. Darba gaitā tika identificēti vairāki ierobežojumi. Būtiskākie no tiem bija vērtējuma tīkla nespēja konverģēt, nemainīgi augsta entropija (kas norāda uz nejaušu rīcību) un nespēja panākt būtiskus rezultātus pat pēc plašas apmācības. Turklāt uzlabotais modelis ievērojami palielināja treniņu laiku, nesniedzot ievērojamus rezultātus. Nākotnes pētījumos būtu ieteicams optimizēt entropijas kontroli, vienkāršot tīkla arhitektūru, ieviest efektīvāku pretinieku modelēšanu, kā arī izpētīt nepārtrauktu darbību telpu (continuous action space) izmantošanu likmju veikšanai. Papildu apmācību datu apjoms un atlīdzības (reward) funkcijas uzlabošana arī varētu veicināt MI spējas sasniegt jēgpilnus rezultātus.
Keywords pastiprinošā mācīšanās, pokera MI, proksimālās politikas optimizācija, pašspēle, nepilnīga informācija
Keywords in English Reinforcement Learning, Poker AI, Proximal Policy Optimization, Self-play, Incomplete Information
Language eng
Year 2024
Date and time of uploading 14.04.2025 03:11:23