Optimization of Poker Play Through AI: Learning from Experience and Incomplete Information.

Graduate papers

Search graduate papers

Description of the graduate paper

Form of studies	Bachelor
Title of the study programm	Computer Science and Organizational Technologies
Title in original language	Pokera spēles optimizācija, izmantojot MI: mācīšanās no pieredzes un nepilnīgas informācijas.
Title in English	Optimization of Poker Play Through AI: Learning from Experience and Incomplete Information.
Department	Riga Business School
Scientific advisor	Valdis Saulespurēns
Reviewer	Artūrs Vrubļevskis
Abstract	Pokers rada būtisku izaicinājumu mākslīgajam intelektam (MI), jo tā ir spēle ar nepilnīgu informāciju un sarežģītiem lēmumu pieņemšanas procesiem. Tradicionālās MI metodes bieži saskaras ar grūtībām, efektīvi apstrādājot slēptās spēlētāju stratēģijas un nezināmas kārtis. Šī bakalaura darba mērķis bija izstrādāt efektīvu MI sistēmu, kas spēj spēlēt pokeru konkurētspējīgā līmenī, izmantojot pastiprinošo mācīšanos, konkrēti – Proksimālās politikas optimizācijas (PPO) algoritmu, kombinējot to ar pašspēles tehnikām. Pētījuma laikā tika izmantots PPO algoritms, kas realizēts simulētā pokera vidē PyPokerEngine. MI tika trenēts ar pašspēles metodi, kurā tas nepārtraukti uzlaboja savas prasmes, spēlējot pret sevi. Kritiskie treniņu parametri, piemēram, mācīšanās ātrums (learning rate), entropijas koeficients un partijas izmērs (batch size), tika rūpīgi pielāgoti, lai optimizētu apmācības procesu un stratēģisko sniegumu. Pētījuma rezultāti parādīja būtisku MI snieguma uzlabojumu pēc trenēšanas. Pirms treniņa MI sasniedza vidējo uzvaru rādītāju aptuveni 36,17% pret noteikumiem balstītu pretinieku. Pēc 50 000 pašspēles epizodēm, MI uzvaru rādītājs būtiski pieauga līdz aptuveni 48,57%. Statistiskā analīze apstiprināja, ka šis uzlabojums ir statistiski nozīmīgs (p-vērtība < 0.05), kas apstiprina PPO metodes efektivitāti. Rezultāti apliecina PPO un pašspēles stratēģiju efektivitāti, apmācot MI spēlēm ar nepilnīgu informāciju. Šī pieeja ne tikai uzlabo spēļu MI, bet sniedz arī ieskatu stratēģiskās lēmumu pieņemšanas uzlabošanā citās jomās, piemēram, finanšu sektorā, kiberdrošībā un veselības aprūpē. Lai gan sākotnējais modelis uzrādīja skaidru progresu, vēlākie uzlabojumi – tostarp novērojumu lauka paplašināšana, darbību klāsta palielināšana un atsevišķu politikas/vērtības tīklu ieviešana – nesniedza pozitīvus rezultātus. Šie uzlabojumi un to ietekme detalizēti aprakstīti praktiskajā daļā. Darba gaitā tika identificēti vairāki ierobežojumi. Būtiskākie no tiem bija vērtējuma tīkla nespēja konverģēt, nemainīgi augsta entropija (kas norāda uz nejaušu rīcību) un nespēja panākt būtiskus rezultātus pat pēc plašas apmācības. Turklāt uzlabotais modelis ievērojami palielināja treniņu laiku, nesniedzot ievērojamus rezultātus. Nākotnes pētījumos būtu ieteicams optimizēt entropijas kontroli, vienkāršot tīkla arhitektūru, ieviest efektīvāku pretinieku modelēšanu, kā arī izpētīt nepārtrauktu darbību telpu (continuous action space) izmantošanu likmju veikšanai. Papildu apmācību datu apjoms un atlīdzības (reward) funkcijas uzlabošana arī varētu veicināt MI spējas sasniegt jēgpilnus rezultātus.
Keywords	pastiprinošā mācīšanās, pokera MI, proksimālās politikas optimizācija, pašspēle, nepilnīga informācija
Keywords in English	Reinforcement Learning, Poker AI, Proximal Policy Optimization, Self-play, Incomplete Information
Language	eng
Year	2024
Date and time of uploading	14.04.2025 03:11:23