深度強化學習

阿新 • • 發佈：2021-07-14

value-based，價值學習：DQN。構建一個神經網路，輸入是state，有多個輸出對應採取每個action到最後所能獲得的累加獎勵Q-value。一開始這個網路估計出來的Q-value很差，我們使用TD演算法，讓
\[target = r(a_t|s_t) + \lambda Q(s_{t+1},a_{t+1};w) \]
\(\lambda\)是獎勵折扣率，讓網路在t時刻的輸出儘可能與target相近，以此使用梯度下降更新引數。
- TD演算法過程：
  1. 觀察到環境狀態\(s_t\)；
  2. 將\(s_t\)輸入到動作價值網路\(q(s,a;w_t)\)得到\(t\)時刻的動作價值\(Q(s_t,a_t;w_t)\)
    
    並抽樣得到動作\(a_t\);
  3. agent使用動作\(a_t\)與環境進行互動得到時刻\(t\)的獎勵\(r_t\)和新的環境狀態\(s_{t+1}\)，將\(s_{t+1}\)輸入動作價值網路，得到下個時刻的動作價值\(Q(s_{t+1},a_{t+1};w_t)\)；
  4. 計算得到目標函式：\(y_t = r_t + \lambda Q(s_{t+1},a_{t+1};w_t)\)與\(Q(s_t,a_t;w_t)\)的均方誤差作為損失更新網路引數；
policy-based，策略學習：學習一個policy，目標是使得狀態價值函式的值最大化。構建一個神經網路，其輸入是state，輸出是所有action的概率。使用的演算法是策略梯度上升。
- state-value function：狀態價值函式，從某個狀態到結束所能累計的獎勵的期望值。
  \[V(s;\theta) = \sum_a \pi (a|s;\theta)Q_\pi (s,a) \]
- 訓練一個policy——\(\pi\)，以獲得最大化的狀態價值為目標。policy gradient演算法就是對於狀態價值函式的梯度上升演算法：
  \[\begin{aligned} \frac{\partial V(s;\theta)}{\partial \theta} &= \sum_a \frac{\partial \pi(a|s;\theta)}{\partial\theta}Q_\pi(s,a) \\ &=\sum_a \pi(a|s;\theta)\frac{\partial log\pi(a|s;\theta)}{\partial \theta}Q(s,a) \\ &= \mathbb{E}_{A\sim \pi(a|s;\theta)} [\frac{\partial log \pi(A|s;\theta)}{\partial \theta}Q_\pi(s,A)] \end{aligned} \]
  這裡的變形使得連加變成了求期望，如果動作是離散的，我們使用原始的求和形式；如果動作是連續的，我們使用變形後的求期望的形式，另外此時我們還沒有定義動作價值函式的形式。
- 對於\(a\)是連續動作，我們的目標是求得給定policy下的\(\frac{\partial log\pi (A|s;\theta)}{\partial\theta}Q_\pi(s,A)\)的期望，也就是求\(\pi(A|s;\theta)\frac{\partial\pi(A|s;\theta)}{\partial\theta}Q_\pi(s,A)\)的積分，但是\(\pi(s,A)\)是一個神經網路，我們沒辦法直接求積分，只能採用蒙特卡洛近似。
  - 蒙克卡羅近似：
    1. 從\(\pi(A|s;\theta)\)中隨機抽出一個動作\(\hat a\)；
    2. 計算\(g(\hat a,\theta) = \frac{\partial log\pi(\hat a|s;\theta)}{\partial \theta}Q_\pi(s,\hat a)\)；（還不知道動作價值函式的定義）
    3. 使用\(g(\hat a,\theta)\)作為策略梯度\(\frac{\partial V(s;\theta)}{\partial \theta}\)的近似。
  - 事實上蒙特卡洛也適用於動作是離散時的情況。
- 策略梯度演算法過程：
  1. 觀測到環境狀態\(s_t\);
  2. 從policy策略\(\pi(A|s_t;\theta_t)\)（動作的概率密度函式）中隨機抽樣一個動作\(a_t\)；
  3. 計算動作價值函式：\(q_t \approx Q_\pi(s_t,a_t)\)；（還不知道動作價值函式的定義）
  4. 對策略網路求導數：\(d_{\theta,t} = \frac{\partial log\pi(a_t|s_t;\theta)}{\partial \theta}\)；
  5. 計算近似策略梯度：\(g(a_t,\theta_t) = d_{\theta,t} \cdot q_t\)；
  6. 更新策略網路的引數：\(\theta_{t + 1} = \theta_t + \lambda \cdot g(a_t,\theta_t)\)。
  - 在上面的演算法中還沒有對於動作價值函式\(q_t \approx Q_\pi(s,a)\)的定義，下面介紹兩種\(q_t\)的近似：
    1. REINFORCE演算法.
      1. REINFORCE演算法使用一個策略進行一個序列\(\tau\)；
      2. 使用這個序列提供的資訊計算時刻\(t\)往後的累計折扣獎勵\(u_t = \sum_{k = t}^\tau \gamma ^{k - t}r_k\)；
      3. 由於動作價值函式\(Q_\pi(s_t,a_t) = \mathbb{E}[U_t]\)，是在時刻\(t\)採用動作\(a\)的累計折扣獎勵的期望值，因此可以用\(u_t\)近似它；
      4. 令\(q_t = u_t\)。
      - REINFORCE演算法需要執行一次完整的序列才能更新一次策略網路的引數。
    2. actor-critic演算法：
      - 這種演算法使用額外的一個神經網路來近似動作價值函式\(Q_\pi(s,a)\)，見下面。
actor-critic演算法：上面的兩種價值學習和策略學習分別學習一個價值網路和一個策略網路，如果將兩種方法結合起來，就成為了actior-critic演算法。
- 策略網路\(\pi(a|s;\theta)\)用來近似策略\(\pi(a|s)\);
- 動作價值網路\(q(s,a;w)\)用來近似動作價值函式\(Q_\pi(s,a)\)；
  - 輸入：狀態s和動作a。
  - 輸出：動作價值（標量）。
- 狀態價值函式可以被策略網路和價值網路近似：\(V_\pi(s) = \sum_a\pi(a|s)\cdot Q(s,a) \approx \sum_a \pi(a|s;\theta)\cdot q(s,a;w)\)。
- 網路訓練：
  1. 觀察到環境狀態\(s_t\);
  2. 將狀態\(s_t\)輸入到策略網路\(\pi(A|s_t;\theta_t)\)得到概率輸出，再從輸出中抽樣出一個動作\(a_t\)；
  3. agent執行動作\(a_t\)與環境互動得到獎勵\(r_t\)和新的狀態\(s_{t+1}\);
  4. 將狀態\(s_{t+1}\)輸入策略網路抽樣得到動作\(\hat a_{t+1}\)；（這個動作並不執行，只是給動作價值網路使用TD演算法提供輸入）
  5. 使用TD演算法更新動作價值網路的引數（見上）；
    1. 計算兩個動作價值\(q_t = q(s_t,a_t;w_t)\)和\(q_{t+1} = q(s_{t+1},\hat a_{t+1};w_t)\);
    2. 計算TD誤差：\(\delta_t = q_t - (r_t + \lambda(q_{t+1}))\);
    3. 對動作價值網路的引數求導；
    4. 使用梯度下降更新動作價值網路。
  6. 使用策略梯度演算法更新策略網路的引數（見上）。
    1. 依據動作價值網路對動作的評分\(q_t\)和策略網路對引數的導數\(d_{\theta,t} = \frac{\partial log\pi(a_t|s_t;\theta)}{\partial \theta}\)計算得到\(g(a_t,\theta_t) = q_t \cdot d_{\theta,t}\)；
    2. 對狀態價值的近似\(g(a_g,\theta_t)\)以梯度上升更行策略網路引數：\(\theta_{t+1} = \theta_t + \gamma g(a_t,\theta_t)\)。
  - 需要注意的是在第六步中\(g(a_t,\theta_t) = q_t\cdot d_{\theta,t}\)有的論文和書本中使用的是TD error\(\delta_t\)而不是\(q_t\)。使用\(q_t\)是標準的策略梯度演算法，使用TD error稱為policy gradient with baseline。

在WIN上使用TORCS模擬器做深度強化學習（2）

當你在win上下載安裝好TORCS和patch之後（如果不會請翻看之前的文章），你可以點選安裝目錄中的wtorcs.exe來啟動客戶端

（零基礎可以看懂）深度強化學習之DQN類演算法之第1篇-2013年NeurIPS版本的DQN（含程式碼）-《強化學習系列專欄第4篇》

（零基礎可以看懂）深度強化學習之DQN類演算法-第1篇（含程式碼）-《強化學習系列專欄第4篇》

深度強化學習-筆記（一）

深度強化學習概述什麼是強化學習？強化學習討論的問題是一個智慧體(agent) 怎麼在一個複雜不確定的環境(environment)裡面去極大化它能獲得的獎勵。Agent 在環境裡面獲取到狀態state，也是對整個environm

深度強化學習-筆記02

這次的任務我個人認為還是比較多的，很多涉及數學公式的內容，推公式就比較難。

深度強化學習task05

1. 稀疏獎勵如果環境中的 reward 非常 sparse，reinforcement learning 的問題就會變得非常的困難，但是人類可以在非常 sparse 的 reward 上面去學習。我們的人生通常多數的時候，我們就只是活在那裡，都沒有得到什

深度強化學習環境配置----spinningup配置

1、官網連線英文：https://spinningup.openai.com/en/latest/ 中文：https://spinningup.qiwihui.com/zh_CN/latest/index.html

深度強化學習

value-based，價值學習：DQN。構建一個神經網路，輸入是state，有多個輸出對應採取每個action到最後所能獲得的累加獎勵Q-value。一開始這個網路估計出來的Q-value很差，我們使用TD演算法，讓

深度強化學習——GAE(待重寫)

GAE abstract 策略梯度演算法可以直接優化累計獎勵，並且可以直接用於神經網路等非線性函式逼近器。但是存在兩個挑戰：

深度強化學習——ppo(待重寫)

PPO abstract PPO通過與環境互動來取樣資料和使用隨機梯度上升優化\"替代\"目標函式之間交替使用。鑑於標準策略梯度方法對每個資料嚴格不能執行一次梯度更新，本文章提出了一個新的目標函式，該函式支援多個epochs的

揭祕深度強化學習

儘管監督式和非監督式學習的深度模型已經廣泛被技術社群所採用，深度強化學習仍舊顯得有些神祕。這篇文章將試圖揭祕這項技術，並解釋其背後的邏輯。受眾讀者主要是有機器學習或者神經網路背景，卻還沒來得及深入鑽研

谷歌新引擎可將深度學習提速 1000 倍：1 個 GPU 幾分鐘搞定強化學習訓練

7 月 22 日訊息，機器人要如何完成這樣一個動作？我們一般會基於強化學習，在模擬環境中進行模擬訓練。

TensorFlow強化學習入門（4）——深度Q網路（DQN）及其擴充套件

一個聰明的遊戲agent可以學會避開危險的陷阱本文中我們將一起建立一個深度Q網路（DQN）。它基於我們系列文章中（0）的單層Q網路，如果你是強化學習的初學者，我推薦你到文末跳轉到（0）開始閱讀。儘管簡單的Q網路已

[強化學習]Part1：強化學習初印象

引入智慧人工智慧強化學習初印象強化學習的相關資料經典書籍推薦：《Reinforcement Learning：An Introduction（強化學習導論）》（強化學習教父Richard Sutton 的經典教材）

強化學習實戰（1）：gridworld

參考：https://orzyt.cn/posts/gridworld/ Reinforcement Learning: An Introduction》在第三章中給出了一個簡單的例子:Gridworld, 以幫助我們理解finite MDPs,

強化學習筆記

Preliminary Robbins-Monro Algorithm Robbins-Monro Algorithm is designed to solve the following equation:

英語學習筆記 -- 音標強化學習

1、母音（a，e， i， o， u）在一個單詞及對應音標中起到及其重要的作用 2、任何單詞都有對應的音標及發音，發音是由音節組成的。

強化學習 5 —— SARSA 和 Q-Learning演算法程式碼實現

上篇文章強化學習——時序差分 (TD) --- SARSA and Q-Learning 我們介紹了時序差分TD演算法解決強化學習的評估和控制問題，TD對比MC有很多優勢，比如TD有更低方差，可以學習不完整的序列。所以我們可以在策略控制迴

強化學習 4 —— 時序差分法（TD）解決無模型預測與控制問題

在上篇文章強化學習——蒙特卡洛 (MC) 取樣法的預測與控制中我們討論了 Model Free 情況下的策略評估問題，主要介紹了蒙特卡洛（MC）取樣法的預測與控制問題，這次我們介紹另外一種方法——時序差分法（TD）

強化學習 3—— 使用蒙特卡洛取樣法（MC）解決無模型預測與控制問題

一、問題引入回顧上篇強化學習 2 —— 用動態規劃求解 MDP我們使用策略迭代和價值迭代來求解MDP問題

《強化學習框架》

Reinforcement Learning(RL) frameworks help engineers by creating higher level abstractions of the core components of an RL algorithm. This makes code easier to develop, easier to read and improves ef

深度強化學習

相關推薦