強化學習 5 —— SARSA 和 Q-Learning演算法程式碼實現

阿新 • • 發佈：2020-08-10

上篇文章強化學習——時序差分 (TD) --- SARSA and Q-Learning 我們介紹了時序差分TD演算法解決強化學習的評估和控制問題，TD對比MC有很多優勢，比如TD有更低方差，可以學習不完整的序列。所以我們可以在策略控制迴圈中使用TD來代替MC。優於TD演算法的諸多優點，因此現在主流的強化學習求解方法都是基於TD的。這篇文章會使用就用程式碼實現 SARSA 和 Q-Learning 這兩種演算法。

一、演算法介紹

關於SARSA 和 Q-Learning演算法的詳細介紹，本篇部落格不做過多介紹，若不熟悉可點選文章開頭連結檢視。

Sarsa 和 QLearning 時序差分TD解決強化學習控制問題的兩種演算法，兩者非常相似，從更新公式就能看出來：

SARSA：

\[A(S_t, A_t) \leftarrow A(S_t, A_t) + \alpha \left[R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - A(S_t, A_t)\right] \]

Q-Learning

\[Q(S_t, A_t) \leftarrow Q(S_t, A_t) + \alpha[R_{t+1} + \gamma \; max_aQ(S_{t+1}, a) - Q(S_t, A_t)] \]

可以看出來，兩者的區別就在計算 TD-Target 的時候，下一個動作 a' 是如何選取的

對於 Sarsa 來說：

1）在狀態 s' 時，就知道了要採取那個動作 a'，並且真的採取了這個動作

2）當前動作 a 和下一個動作 a' 都是根據 \(\epsilon\) -貪婪策略選取的，因此稱為on-policy學習

對於 Q-Learning：

1）在狀態s'時，只是計算了在 s' 時要採取哪個 a' 可以得到更大的 Q 值，並沒有真的採取這個動作 a'。
2）動作 a 的選取是根據當前 Q 網路以及 \(\epsilon\)-貪婪策略，即每一步都會根據當前的狀況選擇一個動作A，目標Q值的計算是根據 Q 值最大的動作 a' 計算得來，因此為 off-policy 學習。

二、程式碼

1、SARSA

定義 SARSA agent 類，

class Sarsa:
    def __init__(self, state_dim, action_dim, lr=0.01, gamma=0.9, e_greed=0.1):
        self.action_dim = action_dim
        self.lr = lr
        self.gamma = gamma
        self.epsilon = e_greed
        self.Q = np.zeros((state_dim, action_dim))

    def sample(self, state):
        """
        使用 epsilon 貪婪策略獲取動作
        return: action
        """
        if np.random.uniform() < self.epsilon:
            action = np.random.choice(self.action_dim)
        else: action = self.predict(state)
        return action

    def predict(self, state):
        """ 根據輸入觀察值，預測輸出的動作值 """
        all_actions = self.Q[state, :]
        max_action = np.max(all_actions)
        # 防止最大的 Q 值有多個，找出所有最大的 Q，然後再隨機選擇
        # where函式返回一個 array， 每個元素為下標
        max_action_list = np.where(all_actions == max_action)[0]
        action = np.random.choice(max_action_list)
        return action

    def learn(self, state, action, reward, next_state, next_action, done):
        """
        更新 Q-table 方法
        next_action 就是下一步選的動作，所以直接用 self.Q[next_state, next_action]
        然後計算 td-target，然後更新 Q-table
        """
        if done: target_q = reward
        else:
            target_q = reward + self.gamma * self.Q[next_state, next_action]
        self.Q[state, action] += self.lr * (target_q - self.Q[state, action])

上面程式碼重點是 learn() 方法中的 Q-table 的更新，結合公式還是比較容易理解的。下面是每一個 episode 的流程：對於一個 episode 先呼叫 reset() 方法獲得初始化狀態state，然後選擇當前的動作 action ，使用當前的動作讓環境執行一步，獲取到下一個狀態 next_state 以及獎勵 reward ，然後利用這些資料進行更新Q表格，注意更新之後要把下一個狀態和動作賦值給當前的狀態和動作，然後迴圈。

def run_episode(self, render=False):
    state = self.env.reset()
    action = self.model.sample(state)
    while True:
        next_state, reward, done, _ = self.env.step(action)
        next_action = self.model.sample(next_state)
        # 訓練 Q-learning演算法
        self.model.learn(state, action, reward, next_state, next_action, done)
        state = next_state
        action = next_action
        if render: self.env.render()
        if done: break

完整程式碼見強化學習——SARSA 演算法，勞煩大人點個 star 可好？

2、Q-Learning

由上可知，Q-Learning 和 SARSA 演算法很相似，程式碼幾乎相同，下面就展示下與 SARSA 演算法不同的部分

class QLearning:
    # ...
    # 其他方法見 SARSA 部分
    def learn(self, state, action, reward, next_state, done):
        """
        Q-Learning 更新 Q-table 方法
        這裡沒有明確選擇下一個動作 next_action, 而是選擇 next_state 下有最大價值的動作
        所以用 np.max(self.Q[next_state, :]) 來計算 td-target
        然後更新 Q-table
        """
        if done:
            target_q = reward
        else:
            target_q = reward + self.gamma * np.max(self.Q[next_state, :])
        self.Q[state, action] += self.lr * (target_q - self.Q[state, action])

對於 Q-Learning 的演算法流程部分，和 SARSA 也有些細微區別：在Q-Learning 中的 learn() 方法不需要傳入 next_action 引數，因為在計算td-target 時只是查看了一下下一個狀態的所有動作價值，並選擇一個最優動作讓環境去執行。還請仔細區分兩者的不同：

def run_episode(self, render=False):
    state = self.env.reset()
    while True:
        action = self.model.sample(state)
        next_state, reward, done, _ = self.env.step(action)
        # 訓練 Q-learning演算法
        self.model.learn(state, action, reward, next_state, done)
        
        state = next_state
        if render: self.env.render()
        if done: break

完整程式碼見強化學習——Q-Learning 演算法，勞煩大人點個 star 可好？

強化學習 5 —— SARSA 和 Q-Learning演算法程式碼實現

一、演算法介紹

二、程式碼

1、SARSA

2、Q-Learning

強化學習 5 —— SARSA 和 Q-Learning演算法程式碼實現

強化學習實戰 | 表格型Q-Learning玩井子棋（三）優化，優化

強化學習：q-learning演算法

TensorFlow強化學習入門（0）——Q-Learning的查詢表實現和神經網路實現

強化學習之 SARSA (State-Action-Reward-State’-Action’)

Sarsa與Q-learning

OC學習5——類和物件

統計學習方法第十四章作業：聚類—層次聚類聚合/分裂演算法、K_means聚類演算法程式碼實現

統計學習方法第十八章作業：PLSA 概率潛在語義分析演算法程式碼實現

分散式系統系列學習筆記:MapReduce程式設計模型（附程式碼實現）

Java 二分法檢索演算法程式碼實現詳解

16.圖的深度搜索和廣度搜索程式碼實現（JavaScript版）

詳解Java Fibonacci Search斐波那契搜尋演算法程式碼實現

深度學習中的 Attention 機制總結與程式碼實現（2017-2021年）

神作《統計學習要素》的中文翻譯、程式碼實現及其習題解答，附下載

【整合學習】：Stacking原理以及Python程式碼實現

深度學習對話系統實戰篇 -- 簡單 chatbot 程式碼實現

圖解BM（Boyer-Moore）字串匹配演算法+程式碼實現

圖解KMP字串匹配演算法+程式碼實現

【強化學習】Q-Learning 案例分析

強化學習 5 —— SARSA 和 Q-Learning演算法程式碼實現

一、演算法介紹

二、程式碼

1、SARSA

2、Q-Learning

相關推薦