並行實現有自學習能力的五子棋ＡＩ

阿新 • • 發佈：2019-01-24

表２

搜尋深度

測試結果

並行ＰＶＳ＋歷史啟發

ｓ

０．０３０．２１１．９６１２８．８６

的Ｐ（Ｌ／Ａ）均為１，而贏者在Ｄｅｐｔｈ步走法內的Ｐ（Ｗ／Ａ）均為１。而倒數Ｄｅｐｔｈ次以外的步數有沒有可能導致必輸呢（比如最後階段通過多個衝四，可以在ＡＩ預測步數之外產生必勝局面）？答案是可能的。可以把倒數第Ｄｅｐｔｈ局面定為目標局面，從倒數第Ｄｅｐｔｈ＋１步開始進行層數加深的迭代預測，直到該步局面不會一定匯出這個目標局面為止，而在這步以後的局面都是必輸局面。規定Ｐｒｅ（Ａ）＝Ａ的前次走法，ＰｒｅＰｒｅ（Ａ）＝Ａ局面的前次走法的前次走法（等於悔棋一步）。進行復盤的虛擬碼如下：

ｉｆ（倒數第Ｄｅｐｔｈ步該輸者走）ＣＭ＝倒數第Ｄｅｐｔｈ步的局面；ｅｌｓｅ

ＣＭ＝倒數第Ｄｅｐｔｈ－１步的局面；ｆｏｒ（；；）｛

對ＰｒｅＰｒｅ（ＣＭ）這個局面進行深度為２的ＰＶＳ搜尋；

ＰＶＳ０．０６０．４５９．３６５２９４．５８１

ＰＶＳ＋歷史啟發

０．０４０．２３１２．０２５３１．５５３

２３４５

（注：硬體環境為Ｐ４（ＨＰ）２．８ＧＨｚ，記憶體７６８Ｍ）

處理，ＡＩ勝返回最大，ＡＩ輸返回最小，但事實上即使對於必勝和必輸局面，層數也應該影響返回值。因為下棋時如果能２步獲勝，下棋者不會選擇４步獲勝的走法。對於必輸局面層數就更重要，ＡＩ必須選擇層數多的必輸走法，因為有可能使用者並沒有看出必殺的走法，而浪費了機會，這樣就會使ＡＩ化險為夷。所以在返回極值時，要把層數考慮進去，像：

ＲｅｔｕｒｎＶａｌｕｅ＝９９９９－ｗｅｉｇｈｔ＊Ｄｅｐｔｈ；（ＡＩ勝）ＲｅｔｕｒｎＶａｌｕｅ＝－９９９９＋ｗｅｉｇｈｔ＊Ｄｅｐｔｈ；（ＡＩ輸）

Ｄｅｐｔｈ越大，表示越靠近根節點。這樣當ＡＩ勝利時，對於越靠

近根節點的局面，就返回越大值，反之亦然（ｗｅｉｇｈｔ可以由具體評估函式確定）。

ｉｆ（得到的預測最佳走法不等於ＣＭ）ｂｒｅａｋ；ｅｌｓｅ｛

Ｐ（Ｌ／ＰｒｅＰｒｅ（ＣＭ））＝１；Ｐ（Ｗ／Ｐｒｅ（ＣＭ））＝１；ＣＭ＝ＰｒｅＰｒｅ（ＣＭ）；｝｝

４．２等好局面的隨機走法

由於ＡＩ總是選擇評估值最好的走法走，這樣導致在相同

的佈局，ＡＩ總走出相同的下一步。而事實上，除了必殺招或者必防招，一個局面很多時候沒有絕對最好的走法，而是有一些都近似不錯的走法，那麼可以把這些評估值差距在一定範圍內的走法彙集起來，然後隨機選擇它們中的一種走法，避免ＡＩ的走法的固定模式。

對於上面的虛擬碼，可以將ＢｅｓｔＲｅｓｕｌｔ［執行緒序號］改為一個走法佇列，裡面存放最好的Ｎ（一般Ｎ小於５）個走法，然後在所有執行緒結束時，從所有的ＢｅｓｔＲｅｓｕｌｔ走法中得到最好的走法，然後把評估值與最好走法的評估值之差在一定範圍Ｒａｎｇｅ內的走法都選進來，從中隨機選一個走法。Ｒａｎｇｅ值的確定要參考具體的評估函式。

這樣在每次下完後電腦覆盤，更新最後若干走法的導致勝利或失敗的概率。等下次對弈時，ＡＩ自動把這些資料加到評估函式中去，對於高概率影響ＡＩ獲勝的走法返回極大值，高概率導致ＡＩ輸的返回極小值。ＡＩ如果發現當前佈局的這種走法在以前輸過棋，那麼它不會選擇這個走法，從而達到自學習的效果。

５結束語

隨著ＩｎｔｅｌＨＰ（超執行緒技術）的實現和將來多處理器ＰＣ機

的普及，對於資料計算量大的人機對弈問題必然要求應用並行的思想去處理。超快搜索速度和必要的覆盤必然帶給下“反思”棋ＡＩ更多智慧。（收稿日期：２００５年１２月）

４．３自學習能力

上面的並行ＰＶＳ搜尋演算法還沒有自學習的能力，這樣ＡＩ

在下棋時會重複以前出現過的所以需要在每盤棋結束“昏招”。時，對輸方（尤其當ＡＩ輸時）進行一定步數的覆盤。而這個步數一定要大於搜尋的Ｄｅｐｔｈ（因為輸方在Ｄｅｐｔｈ深度預測中並沒有預見到它的不利）。因此如果用Ｐ（Ｌ／Ａ）表示在Ａ走法下導致輸棋的概率，而Ｐ（Ｗ／Ａ）表示Ａ走法下導致獲勝的概率，那麼最後輸者在Ｄｅｐｔｈ步走法（叫為輸者的最後一個必輸局面）內

參考文獻

１．陸汝鈐．人工智慧［Ｍ］．北京：科學出版社，１９９５

２．ＮｉｌｓＪＮｉｌｓｓｏｎ．鄭扣根，莊越挺譯．ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＡＮｅｗＳｙｎ－ｔｈｅｓｉｓ［Ｍ］．北京：機械工業出版社，２０００

３．ＦＤＬａｒａｍéｅ．ＣｈｅｓｓＰｒｏｇｒａｍｍｉｎｇ［Ｍ］．ＷｒｏｘＰｒｅｓｓＬｔｄ，１９９９４．ＤＮＬＬｅｖｙ．ＣｏｍｐｕｔｅｒＣｈｅｓｓＣｏｍｐｅｎｄｉｕｍ［Ｍ］．Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ，１９８８

（上接２２頁）

製造系統—ＣＩＭＳ，２００３；９（５）：３８４￣３８９

４．ＥｍｍｅｌｈａｉｎｚＭ，ＥｍｍｅｌｈａｉｎｚＬ，ＳｔｏｃｋＪ．Ｃｏｎｓｕｍｅｒｒｅｓｐｏｎｓｅｔｏｒｅｔａｉｌｓｔｏｃｋ－ｏｕｔｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＲｅｔａｉｌｉｎｇ，１９９１；６７（２）：１３８￣１４７

５．ＷａｎｇＣＸ，ＢｅｎａｒｏｃｈＭ．ＳｕｐｐｌｙｃｈａｉｎｃｏｏｒｄｉｎａｔｉｏｎｉｎｂｕｙｅｒｃｅｎｔｒｉｃＢ２Ｂｅｌｅｃｔｒｏｎｉｃｍａｒｋｅｔｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌＰｒｏｄｕｃｔｉｏｎＥｃｏｎｏｍｉｃｓ，２００４；９２（２）：１１３￣１２４

６．ＳｕｎＤ．Ｉｎｖｅｎｔｏｒｙｍａｎａｇｅｍｅｎｔｉｎｅ－ｂｕｓｉｎｅｓｓ．Ｗｏｒｋｉｎｇｐａｐｅｒ，Ｐｅｎｎｓｙｌ－ｖａｎｉａＳｔａｔｅＵｎｉｖｅｒｓｉｔｙ，ＵＳＡ，２００１

２．ＡｂｅｒｄｅｅｎＧｒｏｕｐ．Ｍａｋｉｎｇｅ－ｓｏｕｒｃｉｎｇｓｔｒａｔｅｇｉｃ：ｆｒｏｍｔａｃｔｉｃａｌｔｅｃｈｎｏｌｏｇｙｔｏｃｏｒｅｂｕｓｉｎｅｓｓｓｔｒａｔｅｇｙ［Ｒ］．ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，ＡｂｅｒｄｅｅｎＧｒｏｕｐＩｎｃ，２００２

３．ＣａｍｐｏＫ，ＧｉｊｓｂｒｅｃｈｔｓＥ，ＮｉｓｏｌＰ．Ｔｏｗａｒｄｓｕｎｄｅｒｓｔａｎｄｉｎｇｃｏｎｓｕｍｅｒｒｅ－ｓｐｏｎｓｅｔｏｓｔｏｃｋ－ｏｕｔｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＲｅｔａｉｌｉｎｇ，２０００；７６（２）：２１９￣２４２

計算機工程與應用２００６．３０４７

並行實現有自學習能力的五子棋ＡＩ

並行實現有自學習能力的五子棋ＡＩ

如何設計可自學習的五子棋 AI？

Python基於AIML智慧聊天機器人實戰（4）- 機器人自學習能力整合

TF之AE：AE實現TF自帶數據集AE的encoder之後decoder之前的非監督學習分類

《多核程式設計》學習筆記：氣泡排序的並行實現

python實現《機器學習》西瓜書習題5.6自適應學習率的BP改進演算法

機器學習能力自測題——常見簡單機器學習問題，幫助理解應用

ufldl 深度學習入門第一發：基於BP網路實現稀疏自編碼器

一種基於機器學習的五子棋實現

STM32之紅外遙控訊號自學習實現

快速學習能力

【Android界面實現】使用PagerTabStrip實現有滑動標簽的Viewpager

翻翻git之---自己定義郵件發送buttonSendButton(流程分析，實現思路能夠學習下)

python3網絡爬蟲實現有道詞典翻譯功能

caffe實現多任務學習

從面相對象的學習過程中得出的程序開發者需要具備的類比學習能力

在Golang中實現有無限容量的同步Queue

MsSql判斷表是否有自增標識

C#實現ProperTyGrid自定義屬性的方法

如何用Python實現常見機器學習算法-3

並行實現有自學習能力的五子棋ＡＩ

相關推薦