強化學習表格型求解方法、表格近似（函式）求解方法、策略梯度方法的區別

阿新 • • 發佈：2022-04-12

近來發現自己概念有些混淆，寫一點自己對從Sutton書上看到的這些方法之間聯絡的理解和想法。
【如有不恰當的地方，歡迎指正！】

前言

強化學習的初始驅動就是通過和環境互動得到的獎勵來評估經歷過的狀態或狀態下選擇的動作的好壞，從而選擇出合適的策略進行控制。

所以最好的辦法就是之前DP提到的利用貝爾曼方程迭代求解，收斂之後就找到了最優策略、最優值函式等。

對環境認知不夠充分時就使用蒙特卡羅、TD等方法對其進行估計得到較優策略。

表格近似求解

上述這類想法是評估出每個動作的好壞，然後進行選擇。

自然在對這些因素進行評估時就需要一個點一個點來更新，動作狀態對少的時候還好，時間空間充裕。

如果真的有很多呢？
那就必須要採取一定策略來降低處理難度。分組？劃塊？更一般地，構造一種函式關係，只要找到合適的引數就能得到對應的動作狀態值函式【這就是表格型方法的近似求解】。

策略梯度方法

還有一種途徑就是不利用狀態動作對的大小進行選擇，直接對策略進行擬合（策略說到底就是狀態到動作的對映，只要告訴我這個時候該做什麼就夠了。我可以看看做了哪個動作會更好，這個更好可以是絕對的，自然也可以是相對的）

這就是策略梯度方法了。直接用引數來擬合策略函式進行求解。

至於說梯度，思想和優化問題中的梯度下降很相似（我覺得只要帶梯度的方法都很像）。都是在自變數上動手腳，給一個方向和步長出去探索。

這類方法在看的時候需要明確的就是自變數是誰？因變數（即函式）是什麼？然後按照常規步驟求梯度就可以了。

不得不說，越學越覺得這種思維很數學也很統計，大道至簡，學科之間的道理非常相通哇。
求學之路漫漫，任重道遠啊。

強化學習表格型求解方法、表格近似（函式）求解方法、策略梯度方法的區別

近來發現自己概念有些混淆，寫一點自己對從Sutton書上看到的這些方法之間聯絡的理解和想法。

貝葉斯模型、SVM模型、K均值（Kmeans）聚類、DBSCAN聚類和GDBT模型

貝葉斯模型、SVM模型、K均值聚類、DBSCAN聚類和GDBT模型貝葉斯模型 SVM模型 K均值（Kmeans）聚類

3、統計學習方法--K近鄰法（KNN）

K近鄰演算法一種基本分類與迴歸方法 k近鄰演算法 k近鄰演算法簡單、直觀：給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的k個例項，這k個例項的多數屬於某個類，就把改輸入例項分為這個

設計模式學習筆記（三）簡單工廠、工廠方法和抽象工廠之間的區別

設計模式中的工廠模式（Factory Design pattern）是一個比較常用的建立型設計模式，其中可以細分為三種：簡單工廠（Simple Factory）、工廠方法(Factory Method)和抽象工廠(Abstract Factory)。那麼三者有什麼區別呢

C++學習記錄（七）多繼承、菱形繼承、類的轉換、多型

這是第七天的學習。 1 #include <iostream> 2 3 using namespace std; 4 class Base 5 { 6 public:

某教程學習筆記（一）：08、MSSQL資料庫漏洞

你永遠不知道，愛你愛到發瘋的人，給你發過長篇大論的人，突然安靜下來，不再打擾你，他心裡經歷了怎樣的傷痛。。。

Java 學習筆記（三）之 ThreadLocal、InheritableThreadLocal、TransmittableThreadLocal

一、初識服務程式是由程序構成，程序是由無數個執行緒構成，執行緒是一組程式碼片段組成。在Java的多執行緒程式設計中，為保證多個執行緒對共享變數的安全訪問，通常會使用synchronized來保證同一時刻只有一個執行緒

Pytorch框架學習---（5）調整學習率、視覺化操作

本節簡單總結Pytorch中用於學習率調整的函式，如何使用tensorboard視覺化曲線、梯度、權重、特徵圖、卷積核，以及如何使用torchvision.utils.make_grid()製作網格圖。【文中思維導圖採用MindMaster軟體】

案例應用：給照片資料夾裡照片按日期排序後引用表格的照片名稱批量重新命名（原始碼）

1 ################################################################# 2 #### 程式名稱：給照片資料夾裡照片按日期排序後引用表格的照片名稱批量重新命名###

試開發之Python核心筆記（22）：組合、繼承與多型866

self.last_name = last_name def __str__(self): return \"{}.{}\".format(self.first_name, self.last_name)

Tableau學習筆記——（1）tableau簡介、條形圖與直方圖

目錄 1、tableau簡介1.1 tableau精彩圖形案例1.2 tableau頁面介紹1.2.1 資料匯入介面1.2.2 資料來源介面1.2.3 工作表介面

Tableau學習筆記——（3）基本表、樹形圖、氣泡圖、詞雲

上一小節連結. 目錄 1、基本表1.1 基本表的使用1.2 凸顯表的使用 2、樹形圖2.1 不同型別電影數量與票房

PHP學習之三：PHP基礎（四）字串操作、控制結構和引用檔案

一、字串插入　　1、雙引號 $a = \"a\"; echo \"I have $a\"; 　　2、轉義字元 \\n 換行符

tcpserver廣播發送資料給所有client_ThinkSwoole 教程（六） WebSocket 訊息、廣播以及 Swoole 原生方法呼叫...

技術標籤：tcpserver廣播發送資料給所有clientwebsocket 傳送多條訊息如何判斷全部接收websocket官方文件

HotSpot學習（一）：編譯、啟動與除錯

前文 JVM對許多Java程式設計師是一個黑盒子，經常需要與它打交道，但是又搞不清內部的原理。

C++學習：第六章Linux高階程式設計 - （十三）執行緒的訊號量、鎖、私有資料

技術標籤：C++ 回顧：執行緒與程序 1. 程序由於資源獨立，程序的主要關注是解決資源共享

表格樣式的使用-CSS入門基礎（019）

技術標籤：CSScsscss3htmlhtml5 今天我們分享關於表格樣式的內容。表格內框合併border-collapse：

logit迴歸模型的引數估計過程_R相關與迴歸學習筆記（三十七）——Logistic迴歸模型、R程式（一）...

技術標籤：logit迴歸模型的引數估計過程本筆記中原始資料及程式碼均來源於李東風先生的R語言教程，在此對李東風先生的無私分享表示感謝。

Hive學習視訊心得（二）資料型別、DDL、內外表、分割槽表、DML

技術標籤：大資料——數倉工具Hivehive大資料hadoop 1、Hive的資料型別 1）、基本資料型別

Flask專案學習（Flask專案目錄、Flask聚合函式(基本聚合函式、分組聚合函式、去重聚合函式)）

一、Flask專案目錄（大致是這些檔案） --BBS --apps --各個app --forms.py(校驗元件) --models.py(模型類)

強化學習表格型求解方法、表格近似（函式）求解方法、策略梯度方法的區別

前言

表格近似求解

策略梯度方法

相關推薦