| Abstract |
Pokers rada būtisku izaicinājumu mākslīgajam intelektam (MI), jo tā ir spēle ar nepilnīgu informāciju un sarežģītiem lēmumu pieņemšanas procesiem. Tradicionālās MI metodes bieži saskaras ar grūtībām, efektīvi apstrādājot slēptās spēlētāju stratēģijas un nezināmas kārtis.
Šī bakalaura darba mērķis bija izstrādāt efektīvu MI sistēmu, kas spēj spēlēt pokeru konkurētspējīgā līmenī, izmantojot pastiprinošo mācīšanos, konkrēti – Proksimālās politikas optimizācijas (PPO) algoritmu, kombinējot to ar pašspēles tehnikām.
Pētījuma laikā tika izmantots PPO algoritms, kas realizēts simulētā pokera vidē PyPokerEngine. MI tika trenēts ar pašspēles metodi, kurā tas nepārtraukti uzlaboja savas prasmes, spēlējot pret sevi. Kritiskie treniņu parametri, piemēram, mācīšanās ātrums (learning rate), entropijas koeficients un partijas izmērs (batch size), tika rūpīgi pielāgoti, lai optimizētu apmācības procesu un stratēģisko sniegumu.
Pētījuma rezultāti parādīja būtisku MI snieguma uzlabojumu pēc trenēšanas. Pirms treniņa MI sasniedza vidējo uzvaru rādītāju aptuveni 36,17% pret noteikumiem balstītu pretinieku. Pēc 50 000 pašspēles epizodēm, MI uzvaru rādītājs būtiski pieauga līdz aptuveni 48,57%. Statistiskā analīze apstiprināja, ka šis uzlabojums ir statistiski nozīmīgs (p-vērtība < 0.05), kas apstiprina PPO metodes efektivitāti.
Rezultāti apliecina PPO un pašspēles stratēģiju efektivitāti, apmācot MI spēlēm ar nepilnīgu informāciju. Šī pieeja ne tikai uzlabo spēļu MI, bet sniedz arī ieskatu stratēģiskās lēmumu pieņemšanas uzlabošanā citās jomās, piemēram, finanšu sektorā, kiberdrošībā un veselības aprūpē. Lai gan sākotnējais modelis uzrādīja skaidru progresu, vēlākie uzlabojumi – tostarp novērojumu lauka paplašināšana, darbību klāsta palielināšana un atsevišķu politikas/vērtības tīklu ieviešana – nesniedza pozitīvus rezultātus. Šie uzlabojumi un to ietekme detalizēti aprakstīti praktiskajā daļā.
Darba gaitā tika identificēti vairāki ierobežojumi. Būtiskākie no tiem bija vērtējuma tīkla nespēja konverģēt, nemainīgi augsta entropija (kas norāda uz nejaušu rīcību) un nespēja panākt būtiskus rezultātus pat pēc plašas apmācības. Turklāt uzlabotais modelis ievērojami palielināja treniņu laiku, nesniedzot ievērojamus rezultātus.
Nākotnes pētījumos būtu ieteicams optimizēt entropijas kontroli, vienkāršot tīkla arhitektūru, ieviest efektīvāku pretinieku modelēšanu, kā arī izpētīt nepārtrauktu darbību telpu (continuous action space) izmantošanu likmju veikšanai. Papildu apmācību datu apjoms un atlīdzības (reward) funkcijas uzlabošana arī varētu veicināt MI spējas sasniegt jēgpilnus rezultātus. |