1. 程式人生 > 實用技巧 >深度強化學習-筆記02

深度強化學習-筆記02

這次的任務我個人認為還是比較多的,很多涉及數學公式的內容,推公式就比較難。

1.馬爾可夫決策過程(MDP)

這裡先介紹強化學習中agent與environment的互動過程,如下圖:
在這裡插入圖片描述
agent在得到環境的狀態過後,它會採取行為,它會把這個採取的行為返還給環境。環境在得到agent的行為過後,它會進入下一個狀態,把下一個狀態傳回agent。這個互動的過程是可以通過MDP來表示的。在在馬爾可夫決策過程中,它的環境是 fully observable ,就是全部可以觀測的。但是很多時候環境裡面有些量是不可觀測的,但是這個部分觀測的問題也可以轉換成一個 MDP 的問題。

介紹馬爾可夫獎勵過程。
馬爾可夫獎勵過程(Markov Reward Process, MRP)

是馬爾可夫鏈再加上了一個獎勵函式。在 MRP 中,轉移矩陣跟它的這個狀態都是跟馬爾可夫鏈一樣的,多了一個獎勵函式(reward function)。獎勵函式是一個期望,就是說當你到達某一個狀態的時候,可以獲得多大的獎勵,然後這裡另外定義了一個 discount factor γ

在這裡插入圖片描述

Bellman Equation(貝爾曼等式) 定義了當前狀態跟未來狀態之間的這個關係

未來打了折扣的獎勵加上當前立刻可以得到的獎勵,就組成了這個Bellman EquationBellman Equation的推導過程如下:
在這裡插入圖片描述
Bellman Equation 定義了狀態之間的迭代關係。假設有一個馬爾可夫轉移矩陣是右邊這個樣子。Bellman Equation

描述的就是當前狀態到未來狀態的一個轉移。假設我們當前是在 s_1, 那麼它只可能去到三個未來的狀態:有 0.1 的概率留在它當前這個位置,有 0.2 的概率去到 s_2狀態,有 0.7 的概率去到 s_4的狀態,所以我們要把這個轉移乘以它未來的狀態的價值,再加上它的 immediate reward 就會得到它當前狀態的價值。所以Bellman Equation 定義的就是當前狀態跟未來狀態的一個迭代的關係。

相對於 MRP,馬爾可夫決策過程(Markov Decision Process)多了一個 decision,其它的定義跟 MRP 都是類似的。這裡我們多了一個決策,多了一個 action ,那麼這個狀態轉移也多了一個 condition,就是你採取某一種行為,然後你未來的狀態會不同。它不僅是依賴於你當前的狀態,也依賴於在當前狀態你這個 agent 它採取的這個行為會決定它未來的這個狀態走向。對於這個價值函式,它也是多了一個條件,多了一個你當前的這個行為,就是說你當前的狀態以及你採取的行為會決定你在當前可能得到的獎勵多少。