1. 程式人生 > 其它 >強化學習表格型求解方法、表格近似(函式)求解方法、策略梯度方法的區別

強化學習表格型求解方法、表格近似(函式)求解方法、策略梯度方法的區別

近來發現自己概念有些混淆,寫一點自己對從Sutton書上看到的這些方法之間聯絡的理解和想法。
【如有不恰當的地方,歡迎指正!】

前言

強化學習的初始驅動就是通過和環境互動得到的獎勵來評估經歷過的狀態或狀態下選擇的動作的好壞,從而選擇出合適的策略進行控制。

所以最好的辦法就是之前DP提到的利用貝爾曼方程迭代求解,收斂之後就找到了最優策略、最優值函式等。

對環境認知不夠充分時就使用蒙特卡羅、TD等方法對其進行估計得到較優策略。

表格近似求解

上述這類想法是評估出每個動作的好壞,然後進行選擇。

自然在對這些因素進行評估時就需要一個點一個點來更新,動作狀態對少的時候還好,時間空間充裕。

如果真的有很多呢?
那就必須要採取一定策略來降低處理難度。分組?劃塊?更一般地,構造一種函式關係,只要找到合適的引數就能得到對應的動作狀態值函式【這就是表格型方法的近似求解】。

策略梯度方法

還有一種途徑就是不利用狀態動作對的大小進行選擇,直接對策略進行擬合(策略說到底就是狀態到動作的對映,只要告訴我這個時候該做什麼就夠了。我可以看看做了哪個動作會更好,這個更好可以是絕對的,自然也可以是相對的)

這就是策略梯度方法了。直接用引數來擬合策略函式進行求解。

至於說梯度,思想和優化問題中的梯度下降很相似(我覺得只要帶梯度的方法都很像)。都是在自變數上動手腳,給一個方向和步長出去探索。

這類方法在看的時候需要明確的就是自變數是誰?因變數(即函式)是什麼?然後按照常規步驟求梯度就可以了。

不得不說,越學越覺得這種思維很數學也很統計,大道至簡,學科之間的道理非常相通哇。
求學之路漫漫,任重道遠啊。