1. 程式人生 > >Reinforcement Learning Q-learning 算法學習-2

Reinforcement Learning Q-learning 算法學習-2

action 結果 最小 clas gamma -1 文章 距離 blog

在閱讀了Q-learning 算法學習-1文章之後。

我分析了這個算法的本質。

算法本質個人分析。

1.算法的初始狀態是隨機的,所以每個初始狀態都是隨機的,所以每個初始狀態出現的概率都一樣的。如果訓練的數量夠多的

話,就每種路徑都會走過。所以起始的Q(X,Y) 肯定是從目標的周圍開始分散開來。也就是目標狀態為中心的行為分數會最高。

如 Q(1,5) Q(4,5) Q(5,5)這樣就可以得到第一級別的經驗了。並且分數最高。

Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]

R(state, action) 函數決定了只有在目標的周圍才能產生初始的經驗。

然後擴散出來。

Max[Q(next state, all actions)] 函數決定了選擇最優的線路,目的是產生離目標最短的距離的級別,最小級別。

2.當出現第一級別的經驗之後,才能得到第二級別的經驗。否則就得不到經驗了。

然後第二級別的經驗會比第一級別的低一個比例,由Gamma決定。

3.以此類推,第三級別的。第三級別的經驗會比第二級別的低一個比例。也是由Gamma決定

4.這樣就得到了一個最短路徑的結果。

Reinforcement Learning Q-learning 算法學習-2