論文筆記5:How to Discount Deep Reinforcement Learning:Towards New Dynamic Strategies
參考資料:How to Discount Deep Reinforcement Learning: ...
為幫助跟我一樣的小白,如果有大神看到錯誤,還請您指出,謝謝~
知乎同名:uuummmmiiii
創新點:相比於原始DQN不固定折扣因子(discount factor,γ),學習率(learning rate,α)
改進:變化discount factor 和 learning rate
改進原因:原始的DQN,即用NN代替Q表“儲存”Q值,會出現系統不穩定的情況(應該是涉及到強化學習中狀態之間有相關性,而NN中假設的輸入都是獨立同分布的問題)
帶來益處:加快學習演算法收斂,提高系統穩定性
Abstract
在強化學習中採用深度網路做函式估計已經取得了很大的進展(DQN),在DQN這個基準之上進行改進,本文闡述了discount factor在DQN的學習過程中起到的作用,當diacount factor在訓練過程中逐漸增長到它的最終值,我們實力驗證了這樣可以減少learning step,即加快收斂。如果再伴隨著learning rate的變化(減少),可以增加系統穩定性,表現在後面驗證中,可以降低過擬合。我們的演算法容易陷入區域性最優,採用actor-critic演算法增加exploration,防止陷入僵局和無法發現some parts of the state space.
Introduction
在強化學習中,深度神經網路可以代替Q表,解決狀態空間大使得記憶體不足的問題,但缺點是用NN會產生不穩定(Q值震盪或者發散)。
本文的研究動機取決於:棉花糖實驗(marshmallow),孩子們更傾向於等待更長時間換取更多的獎勵。
本文結構:首先回顧DQN中的一些equation;探索discount factor的作用;再加入learning rate進行實驗。
Instabilities of the online neural fitted Q-learning
discount factor作用與在機器學習中權衡bias-variance相似,discount factor 控制了策略複雜性的程度
Experiments
discount factor變化: =1-0.98(1-
)
![](https://pic1.zhimg.com/80/v2-c3bd7de6bb0f9c625199d72b3043a684_hd.jpg)
![](https://pic3.zhimg.com/80/v2-1f3357962232887679a71d2fba5170e7_hd.jpg)
![](https://pic4.zhimg.com/80/v2-d06c87bd97ae56a40cd7601fb47d2282_hd.jpg)
加入learning rate變化: =0.98
發現五個遊戲均減少了learning step
![](https://pic3.zhimg.com/80/v2-2cd46e31f2065d4e4b1eccc3e802b118_hd.jpg)
![](https://pic3.zhimg.com/80/v2-7c727ebb0e3c6053f6f2e320425e7f1c_hd.jpg)
表示當discount factor保持逐漸增加到0.99後不變,逐漸減少learning rate,使得V值會降低,減少過擬合
![](https://pic4.zhimg.com/80/v2-c34063fcbed825fbaf37d1c352cb0a3d_hd.jpg)