1. 程式人生 > 其它 >One Solution is Not All You Need: Few-Shot Extrapolation via Structured MaxEnt RL草讀

One Solution is Not All You Need: Few-Shot Extrapolation via Structured MaxEnt RL草讀

One Solution is Not All You Need: Few-Shot Extrapolation via Structured MaxEnt RL(增強學習,針對小樣本魯棒性場景)

NIPS-2020

abstract:reinforcement learning 在一些複雜任務場景下有較好的效果,但是即使在微小的任務變化下,這種方法有一定的脆弱性,尤其是微小的任務變化在訓練過程中不能被明顯提供的情況下。為了解決這個問題,自然的解決方法是在訓練集中加入擾動,但是在不影響效能條件下在訓練集中加入擾動是十分困難的,解決此問題的關鍵在於學習在不同環境下的行為能夠使得模型能夠適應不同的環境,這樣就不需要在訓練集中加入擾動。在訓練過程中,針對一個場景獲得多個解決方案,本文的方法能夠在新的任務場景下,使用對這個新場景有效的解決方案,放棄無效的解決方案。從理論上描述了一組由演算法產生的魯棒的環境,實驗說明演算法模型具有魯棒性。

內容:

1、點出RL的問題:即高效能但是偏向專門化。

2、目前的解決方法:在一個訓練集的分佈上進行訓練,訓練集環境分佈代表環境發生的不同變化,但是這種方法會影響到效能條件。

3、本文方案:從一個訓練集尋找到的多個解決方案,當一種解決方案不能使用時,可以採用其他的解決方案,這樣自然具有魯棒性。通過這種方法,構建了一個魯棒性模型。

4、