Noslēguma darbu reģistrs
  
Studiju darba apraksts
Studiju veids bakalaura akadēmiskās studijas
Studiju programmas nosaukums Datorzinātne un organizāciju tehnoloģijas
Nosaukums Pokera spēles optimizācija, izmantojot MI: mācīšanās no pieredzes un nepilnīgas informācijas.
Nosaukums angļu valodā Optimization of Poker Play Through AI: Learning from Experience and Incomplete Information.
Struktūrvienība 02C60 Rīgas Biznesa skola
Darba vadītājs Valdis Saulespurēns
Recenzents Artūrs Vrubļevskis
Anotācija Pokers rada būtisku izaicinājumu mākslīgajam intelektam (MI), jo tā ir spēle ar nepilnīgu informāciju un sarežģītiem lēmumu pieņemšanas procesiem. Tradicionālās MI metodes bieži saskaras ar grūtībām, efektīvi apstrādājot slēptās spēlētāju stratēģijas un nezināmas kārtis. Šī bakalaura darba mērķis bija izstrādāt efektīvu MI sistēmu, kas spēj spēlēt pokeru konkurētspējīgā līmenī, izmantojot pastiprinošo mācīšanos, konkrēti – Proksimālās politikas optimizācijas (PPO) algoritmu, kombinējot to ar pašspēles tehnikām. Pētījuma laikā tika izmantots PPO algoritms, kas realizēts simulētā pokera vidē PyPokerEngine. MI tika trenēts ar pašspēles metodi, kurā tas nepārtraukti uzlaboja savas prasmes, spēlējot pret sevi. Kritiskie treniņu parametri, piemēram, mācīšanās ātrums (learning rate), entropijas koeficients un partijas izmērs (batch size), tika rūpīgi pielāgoti, lai optimizētu apmācības procesu un stratēģisko sniegumu. Pētījuma rezultāti parādīja būtisku MI snieguma uzlabojumu pēc trenēšanas. Pirms treniņa MI sasniedza vidējo uzvaru rādītāju aptuveni 36,17% pret noteikumiem balstītu pretinieku. Pēc 50 000 pašspēles epizodēm, MI uzvaru rādītājs būtiski pieauga līdz aptuveni 48,57%. Statistiskā analīze apstiprināja, ka šis uzlabojums ir statistiski nozīmīgs (p-vērtība < 0.05), kas apstiprina PPO metodes efektivitāti. Rezultāti apliecina PPO un pašspēles stratēģiju efektivitāti, apmācot MI spēlēm ar nepilnīgu informāciju. Šī pieeja ne tikai uzlabo spēļu MI, bet sniedz arī ieskatu stratēģiskās lēmumu pieņemšanas uzlabošanā citās jomās, piemēram, finanšu sektorā, kiberdrošībā un veselības aprūpē. Lai gan sākotnējais modelis uzrādīja skaidru progresu, vēlākie uzlabojumi – tostarp novērojumu lauka paplašināšana, darbību klāsta palielināšana un atsevišķu politikas/vērtības tīklu ieviešana – nesniedza pozitīvus rezultātus. Šie uzlabojumi un to ietekme detalizēti aprakstīti praktiskajā daļā. Darba gaitā tika identificēti vairāki ierobežojumi. Būtiskākie no tiem bija vērtējuma tīkla nespēja konverģēt, nemainīgi augsta entropija (kas norāda uz nejaušu rīcību) un nespēja panākt būtiskus rezultātus pat pēc plašas apmācības. Turklāt uzlabotais modelis ievērojami palielināja treniņu laiku, nesniedzot ievērojamus rezultātus. Nākotnes pētījumos būtu ieteicams optimizēt entropijas kontroli, vienkāršot tīkla arhitektūru, ieviest efektīvāku pretinieku modelēšanu, kā arī izpētīt nepārtrauktu darbību telpu (continuous action space) izmantošanu likmju veikšanai. Papildu apmācību datu apjoms un atlīdzības (reward) funkcijas uzlabošana arī varētu veicināt MI spējas sasniegt jēgpilnus rezultātus.
Atslēgas vārdi pastiprinošā mācīšanās, pokera MI, proksimālās politikas optimizācija, pašspēle, nepilnīga informācija
Atslēgas vārdi angļu valodā Reinforcement Learning, Poker AI, Proximal Policy Optimization, Self-play, Incomplete Information
Valoda eng
Gads 2024
Darba augšupielādes datums un laiks 14.04.2025 03:11:23