論文筆記5：How to Discount Deep Reinforcement Learning:Towards New Dynamic Strategies

阿新 • • 發佈：2018-11-27

參考資料：How to Discount Deep Reinforcement Learning: ...

為幫助跟我一樣的小白，如果有大神看到錯誤，還請您指出，謝謝~

知乎同名：uuummmmiiii

創新點：相比於原始DQN不固定折扣因子（discount factor,γ），學習率（learning rate,α）

改進：變化discount factor 和 learning rate

改進原因：原始的DQN，即用NN代替Q表“儲存”Q值，會出現系統不穩定的情況（應該是涉及到強化學習中狀態之間有相關性，而NN中假設的輸入都是獨立同分布的問題）

帶來益處：加快學習演算法收斂，提高系統穩定性

Abstract

在強化學習中採用深度網路做函式估計已經取得了很大的進展（DQN），在DQN這個基準之上進行改進，本文闡述了discount factor在DQN的學習過程中起到的作用，當diacount factor在訓練過程中逐漸增長到它的最終值，我們實力驗證了這樣可以減少learning step,即加快收斂。如果再伴隨著learning rate的變化（減少），可以增加系統穩定性，表現在後面驗證中，可以降低過擬合。我們的演算法容易陷入區域性最優，採用actor-critic演算法增加exploration，防止陷入僵局和無法發現some parts of the state space.

Introduction

在強化學習中，深度神經網路可以代替Q表，解決狀態空間大使得記憶體不足的問題，但缺點是用NN會產生不穩定（Q值震盪或者發散）。

本文的研究動機取決於：棉花糖實驗（marshmallow），孩子們更傾向於等待更長時間換取更多的獎勵。

本文結構：首先回顧DQN中的一些equation;探索discount factor的作用；再加入learning rate進行實驗。

Instabilities of the online neural fitted Q-learning

discount factor作用與在機器學習中權衡bias-variance相似，discount factor 控制了策略複雜性的程度

Experiments

discount factor變化： $\gamma_{k+1}$ =1-0.98(1- $\gamma_{k}$ )

γ增加，有四個遊戲演算法學習更快上面兩圖為第一個遊戲，下面兩圖第二個遊戲；左邊兩圖γ都逐漸增加到0.99後不變，右邊兩圖逐漸增加到接近1，可發現實際的scores較V值高很多，嚴重過擬合

加入learning rate變化： $\alpha_{k+1}$ =0.98 $\alpha_{k}$ 發現五個遊戲均減少了learning step

上面兩個圖表示第一個遊戲，下面兩圖表示第二個遊戲；γ均保持逐漸增加到0.99後不變，左邊表示learning rate不變，右邊兩圖表示learning rate逐漸減少

表示當discount factor保持逐漸增加到0.99後不變，逐漸減少learning rate，使得V值會降低，減少過擬合

對於遊戲seaquest，actor-critic演算法可以跳出區域性最優

論文筆記5：How to Discount Deep Reinforcement Learning:Towards New Dynamic Strategies

Abstract

Introduction

Instabilities of the online neural fitted Q-learning

Experiments

論文筆記5：How to Discount Deep Reinforcement Learning:Towards New Dynamic Strategies

論文筆記之：Collaborative Deep Reinforcement Learning for Joint Object Search

Deep Learning 學習筆記5：神經網路彙總

《大型網站技術架構：核心原理與案例分析》-- 讀書筆記 (5) ：網購秒殺系統

C++筆記(5)：繼承和多態代碼實現

python筆記5：函數式編程

Java中使用HttpRequest調用RESTfull的DELETE方法接口提示：How to fix HTTP method DELETE doesn't support output

hibernate框架學習筆記5：緩存

struts2框架學習筆記5：OGNL表達式

Kali學習筆記5：TCPDUMP詳細使用方法

Dubbo學習筆記5：Dubbo整體框架分析

Data Wrangling文摘：How to share data with a statistician

論文筆記10：ITSEGO: An Ontology for Game-based Intelligent Tutoring Systems

論文筆記8：通過形式概念分析建立教學模式

論文筆記7：Prioritized Experience Replay

論文筆記6：Increasing the Action Gap: New Operators for Reinforcement Learning

Centos/RHEL ：How to add，delete and display LVM tags

Less學習筆記5：匹配模式

讀書筆記5：引用型別

flutter筆記5：官方資料搬運-安卓客戶端打包

論文筆記5：How to Discount Deep Reinforcement Learning:Towards New Dynamic Strategies

Abstract

Introduction

Instabilities of the online neural fitted Q-learning

Experiments

相關推薦