深度強化學習——GAE(待重寫)
GAE
abstract
策略梯度演算法可以直接優化累計獎勵,並且可以直接用於神經網路等非線性函式逼近器。但是存在兩個挑戰:
-
需要大量的樣本
-
很難讓演算法在變化的資料中獲得穩定的上升。
而在本章中,使用價值函式,通過類似於的優勢函式的指數加權估計值,來答覆減少策略梯度估計值的偏差。通過對策略和值函式使用置信域的方法來解決第二個問題。
Introduction
強化學習中的典型問題是使策略的期望總回報最大化,但是其中難度的一個關鍵來源使動作和產生的影響之間的長時間延遲。這個問題被稱為the credit assignment problem。
但現在我們可以使用值函式的方式來估計延遲的獎勵。
-
當使用引數化隨機策略使,是可以得到總回報梯度的無偏估計。但是梯度估計量的方差步符合時間範圍,因為行動影響與過去和未來行動的影響混雜在一起。
-
另一類為策略梯度演算法,使用價值函式而不是經驗回報,以引入偏差為代價獲得方差更低的估計量。
-
但是儘管高方差需要使用更多的樣本,偏差卻更有害——即使有無限數量的樣本,偏差也會導致演算法無法收斂,或者收斂到一個甚至不是區域性最優解的糟糕解。
本文的主要貢獻為:
-
為策略梯度的有效方差減少方案提供了理由和直覺,稱之為廣義優勢估計(GAE)
-
提出了一種基於信賴域的值函式優化方法。
-
得到了一種經驗上有效的學習神經網路策略的演算法,用於連續的控制任務。
Preliminaries
策略梯度可以有以下的幾種表達方式:
並給出如下的定義:
可以發現在,使用A時,可以使策略梯度的方差最小。
通過引入折扣回報,上述的三個定義將修改為:
策略梯度也會修改為:
並給出定義近似,即對進行近似替代後,不會產生偏差。
定義一個估計為近似,需要:
此時有以下的性質:
其中一個是的充分條件是可以分解為兩個函式和的形式,其中可以依賴於任何軌跡,但是是需要是上訴定義的Q函式的無偏估計,需要是在取樣之前的狀態和動作的任何函式。
一些常見的近似如:
ADVANTAGE FUNCTION ESTIMATION
在本節中,是為了找到對的一個準確的估計,並用來構建策略梯度的近似估計:
在定義TD-error後,,可以將考慮為動作的優勢估計:
由於也是擁有時間的區分的,因此也可以對不同時間的步數進行區分,即可以產生如下定義:
我們看到,即一個k步的折扣回報和減去一個基線函式,當使,可以得到:
,那麼此時我們就可以得到廣義優勢函式(GAE)的定義了:
並且對於,這兩種情況,GAE有特殊的表達
-
當時,是,但是會引入高方差
-
當且時,,但是由於求和,它雖然擁有更小的方差但是會帶來偏差。
對於GAE來說有兩個獨立的引數,這兩個方差都有助於減少方差和偏差,但是它們有不同的用途,並且取得最好效果的時候值也不同。
-
最重要的是決定了的尺度,它不依賴於。無論值函式的準確性如何,如果,都會在策略梯度中引入偏差
-
當時,只有在值函式不準確時引入偏差
-
並且根據實驗,發現的最佳值遠低於的最佳值,這可能時因為引入的偏差遠小於
使用GAE,我們可以構造的無偏估計:
Interpretation as Reward shaping
Reward shaping是將回報函式進行轉換:
把麼我們可以得到一個軌跡的折扣回報為:
並且通過下式我們可以發現,是沒有產生變化的:
並且如果.那麼狀態值函式為0.
那麼令,並且為了防止遠距離獎勵帶來的噪聲,因此加上一個更快的衰減,就得到了前面定義的GAE:
Frequently asked questions
why don't you just use a Q—Function