深度強化學習——GAE(待重寫)

阿新 • • 發佈：2021-10-07

GAE

abstract

策略梯度演算法可以直接優化累計獎勵，並且可以直接用於神經網路等非線性函式逼近器。但是存在兩個挑戰：

需要大量的樣本
很難讓演算法在變化的資料中獲得穩定的上升。

而在本章中，使用價值函式，通過類似於 $的優勢函式的指數加權估計值，來答覆減少策略梯度估計值的偏差。通過對策略和值函式使用置信域的方法來解決第二個問題。$

Introduction

強化學習中的典型問題是使策略的期望總回報最大化，但是其中難度的一個關鍵來源使動作和產生的影響之間的長時間延遲。這個問題被稱為the credit assignment problem。

但現在我們可以使用值函式的方式來估計延遲的獎勵。

當使用引數化隨機策略使，是可以得到總回報梯度的無偏估計。但是梯度估計量的方差步符合時間範圍，因為行動影響與過去和未來行動的影響混雜在一起。
另一類為策略梯度演算法，使用價值函式而不是經驗回報，以引入偏差為代價獲得方差更低的估計量。
但是儘管高方差需要使用更多的樣本，偏差卻更有害——即使有無限數量的樣本，偏差也會導致演算法無法收斂，或者收斂到一個甚至不是區域性最優解的糟糕解。

本文的主要貢獻為：

為策略梯度的有效方差減少方案提供了理由和直覺，稱之為廣義優勢估計(GAE)
提出了一種基於信賴域的值函式優化方法。
得到了一種經驗上有效的學習神經網路策略的演算法，用於連續的控制任務。

Preliminaries

策略梯度可以有以下的幾種表達方式：

並給出如下的定義：

可以發現在， $使用A時，可以使策略梯度的方差最小。$

通過引入折扣回報，上述的三個定義將修改為：

策略梯度也會修改為：

並給出定義 $近似，即對進行近似替代後，不會產生偏差。$

定義一個估計 $為近似，需要：$

此時 $有以下的性質：$

其中一個 $是的充分條件是可以分解為兩個函式和的形式，其中可以依賴於任何軌跡，但是是需要是上訴定義的Q函式的無偏估計，需要是在取樣之前的狀態和動作的任何函式。$

一些常見的 $近似如：$

ADVANTAGE FUNCTION ESTIMATION

在本節中，是為了找到對 $的一個準確的估計，並用來構建策略梯度的近似估計：$

在定義TD-error後， $,可以將考慮為動作的優勢估計：$

由於 $也是擁有時間的區分的，因此也可以對不同時間的步數進行區分，即可以產生如下定義：$

我們看到， $即一個k步的折扣回報和減去一個基線函式，當使，可以得到：$

，那麼此時我們就可以得到廣義優勢函式(GAE)的定義了：

並且對於 $,這兩種情況，GAE有特殊的表達$

當 $時，是,但是會引入高方差$
當 $且時，，但是由於求和，它雖然擁有更小的方差但是會帶來偏差。$

對於GAE來說有兩個獨立的引數 $，這兩個方差都有助於減少方差和偏差，但是它們有不同的用途，並且取得最好效果的時候值也不同。$

$最重要的是決定了的尺度，它不依賴於。無論值函式的準確性如何，如果，都會在策略梯度中引入偏差$
當 $時，只有在值函式不準確時引入偏差$
並且根據實驗，發現 $的最佳值遠低於的最佳值，這可能時因為引入的偏差遠小於$

使用GAE，我們可以構造 $的無偏估計：$

Interpretation as Reward shaping

Reward shaping是將回報函式進行轉換：

把麼我們可以得到一個軌跡的折扣回報為：

並且通過下式我們可以發現， $是沒有產生變化的：$

並且如果 $.那麼狀態值函式為0.$

那麼令 $，並且為了防止遠距離獎勵帶來的噪聲，因此加上一個更快的衰減，就得到了前面定義的GAE：$

Frequently asked questions

why don't you just use a Q—Function

如果使用動作值函式進行模擬，那麼在函式的輸入中還應該包括動作，那麼與狀態值相比，使用動作值函式過於複雜了。這樣會帶來更大的偏差。

深度強化學習——GAE(待重寫)

GAE abstract 策略梯度演算法可以直接優化累計獎勵，並且可以直接用於神經網路等非線性函式逼近器。但是存在兩個挑戰：

深度強化學習——ppo(待重寫)

PPO abstract PPO通過與環境互動來取樣資料和使用隨機梯度上升優化\"替代\"目標函式之間交替使用。鑑於標準策略梯度方法對每個資料嚴格不能執行一次梯度更新，本文章提出了一個新的目標函式，該函式支援多個epochs的

在WIN上使用TORCS模擬器做深度強化學習（2）

當你在win上下載安裝好TORCS和patch之後（如果不會請翻看之前的文章），你可以點選安裝目錄中的wtorcs.exe來啟動客戶端

（零基礎可以看懂）深度強化學習之DQN類演算法之第1篇-2013年NeurIPS版本的DQN（含程式碼）-《強化學習系列專欄第4篇》

（零基礎可以看懂）深度強化學習之DQN類演算法-第1篇（含程式碼）-《強化學習系列專欄第4篇》

深度強化學習-筆記（一）

深度強化學習概述什麼是強化學習？強化學習討論的問題是一個智慧體(agent) 怎麼在一個複雜不確定的環境(environment)裡面去極大化它能獲得的獎勵。Agent 在環境裡面獲取到狀態state，也是對整個environm

深度強化學習-筆記02

這次的任務我個人認為還是比較多的，很多涉及數學公式的內容，推公式就比較難。

深度強化學習task05

1. 稀疏獎勵如果環境中的 reward 非常 sparse，reinforcement learning 的問題就會變得非常的困難，但是人類可以在非常 sparse 的 reward 上面去學習。我們的人生通常多數的時候，我們就只是活在那裡，都沒有得到什

深度強化學習環境配置----spinningup配置

1、官網連線英文：https://spinningup.openai.com/en/latest/ 中文：https://spinningup.qiwihui.com/zh_CN/latest/index.html

深度強化學習

value-based，價值學習：DQN。構建一個神經網路，輸入是state，有多個輸出對應採取每個action到最後所能獲得的累加獎勵Q-value。一開始這個網路估計出來的Q-value很差，我們使用TD演算法，讓

揭祕深度強化學習

儘管監督式和非監督式學習的深度模型已經廣泛被技術社群所採用，深度強化學習仍舊顯得有些神祕。這篇文章將試圖揭祕這項技術，並解釋其背後的邏輯。受眾讀者主要是有機器學習或者神經網路背景，卻還沒來得及深入鑽研

谷歌新引擎可將深度學習提速 1000 倍：1 個 GPU 幾分鐘搞定強化學習訓練

7 月 22 日訊息，機器人要如何完成這樣一個動作？我們一般會基於強化學習，在模擬環境中進行模擬訓練。

TensorFlow強化學習入門（4）——深度Q網路（DQN）及其擴充套件

一個聰明的遊戲agent可以學會避開危險的陷阱本文中我們將一起建立一個深度Q網路（DQN）。它基於我們系列文章中（0）的單層Q網路，如果你是強化學習的初學者，我推薦你到文末跳轉到（0）開始閱讀。儘管簡單的Q網路已

[強化學習]Part1：強化學習初印象

引入智慧人工智慧強化學習初印象強化學習的相關資料經典書籍推薦：《Reinforcement Learning：An Introduction（強化學習導論）》（強化學習教父Richard Sutton 的經典教材）

強化學習實戰（1）：gridworld

參考：https://orzyt.cn/posts/gridworld/ Reinforcement Learning: An Introduction》在第三章中給出了一個簡單的例子:Gridworld, 以幫助我們理解finite MDPs,

強化學習筆記

Preliminary Robbins-Monro Algorithm Robbins-Monro Algorithm is designed to solve the following equation:

英語學習筆記 -- 音標強化學習

1、母音（a，e， i， o， u）在一個單詞及對應音標中起到及其重要的作用 2、任何單詞都有對應的音標及發音，發音是由音節組成的。

強化學習 5 —— SARSA 和 Q-Learning演算法程式碼實現

上篇文章強化學習——時序差分 (TD) --- SARSA and Q-Learning 我們介紹了時序差分TD演算法解決強化學習的評估和控制問題，TD對比MC有很多優勢，比如TD有更低方差，可以學習不完整的序列。所以我們可以在策略控制迴

強化學習 4 —— 時序差分法（TD）解決無模型預測與控制問題

在上篇文章強化學習——蒙特卡洛 (MC) 取樣法的預測與控制中我們討論了 Model Free 情況下的策略評估問題，主要介紹了蒙特卡洛（MC）取樣法的預測與控制問題，這次我們介紹另外一種方法——時序差分法（TD）

強化學習 3—— 使用蒙特卡洛取樣法（MC）解決無模型預測與控制問題

一、問題引入回顧上篇強化學習 2 —— 用動態規劃求解 MDP我們使用策略迭代和價值迭代來求解MDP問題

《強化學習框架》

Reinforcement Learning(RL) frameworks help engineers by creating higher level abstractions of the core components of an RL algorithm. This makes code easier to develop, easier to read and improves ef

深度強化學習——GAE(待重寫)

GAE

abstract

Introduction

Preliminaries

ADVANTAGE FUNCTION ESTIMATION

Interpretation as Reward shaping

Frequently asked questions

why don't you just use a Q—Function

相關推薦