1. 程式人生 > 資訊 >2000 億次訓練,只為能讓 AI“自學”新遊戲

2000 億次訓練,只為能讓 AI“自學”新遊戲

據外媒報道,Open-Ended Learning Team(開放式學習小組)在 Deepmind 的 Blog 上發表了一篇關於訓練一個無需與人類互動資料就能玩不同遊戲的 AI 智慧體(AI agents)的文章。

一般來說,需要先給智慧體提供一部分新遊戲的資料,再讓它自我進行遊戲訓練,從而在該遊戲中取得更好的成績。但目前的智慧體,如果不從頭開始學習,它就無法完成新遊戲或新任務。團隊的目的是省略前面的步驟,創造出的智慧體能直接在新遊戲中自我探索,並在複雜的遊戲環境中取得好成績。

▲ AI agents

團隊希望該文章能提供給其他研究人員另一條新思路,以創造更具適應性(more adaptive)、普遍能力(generally capable)更強的 AI 智慧體。同時,他們邀請感興趣的人士一同加入研究。

一、專門為訓練 AI 造了個遊戲場地

當 AI 智慧體在訓練遊戲時,缺乏資料(每個遊戲的資料都是單獨的)是導致強化學習(reinforcement learning,RL) 效果不佳的主要原因。這就意味著如果想讓智慧體可以完成所有任務,就需要讓它把每一款遊戲(任務)都訓練了,否則它們在遇到新遊戲的時候就只能“乾瞪眼”。

團隊建立了一個 3D 遊戲環境,稱之為“XLand”,該環境能夠容納多位玩家共同遊戲。這種環境使得團隊能夠制定新的學習演算法,而這種演算法能動態地控制一個智慧體進行遊戲訓練。

▲ Xland

因為 XLand 可以通過程式設計指定(programmatically specified),所以該遊戲空間能夠以自動和演算法(automated and algorithmic)的方式生成資料(該資料可以訓練智慧體)。同時,XLand 中的任務涉及多個玩家,其他玩家的行為會加大 AI 智慧體所面臨的挑戰。這些複雜的非線性互動(隨機性)為訓練提供了理想的資料來源,因為有時訓練環境中的微小變化可能會給智慧體帶來不一樣的挑戰。

二、任務難度要“剛剛好”

團隊研究的核心是深度強化學習在神經網路中的作用(尤其是在智慧體的訓練中)。團隊使用的神經網路結構(neural network architecture)提供了一種關注智慧體內部迴圈狀態(internal recurrent state)的機制,通過預測智慧體所玩遊戲的子目標(subgoals)來幫助引導智慧體的注意力(預測遊戲任務並引導智慧體前往)。團隊發現這個目標關注智慧體 (goal-attentive agent,GOAT) 有學習了一般能力的政策的能力(GOAT 方案使得智慧體更具適應性)。

▲ 預測智慧體的子目標

團隊還預測任務訓練的難度會影響智慧體的總體能力。因此,他們使用動態任務生成(dynamic task generation)對智慧體的訓練任務分配進行更改,並不斷優化,生成的每個任務既不是太難也不是太容易,而是剛好適合訓練。在這之後,他們使用基於群體的訓練 (population based training,PBT) 來調整動態任務的生成引數,以提高智慧體的總體能力。最後,團隊將多個訓練執行串聯在一起,這樣每一代智慧體都可以從上一代智慧體中啟動(智慧體迭代)。

三、智慧體有啟發式行為?

團隊在對智慧體進行了五代訓練後,發現其學習能力和效能都在持續提升。在 XLand 的 4,000 個世界中玩過大約 700,000 個遊戲後,最後一代的每個智慧體都經歷了 2000 億次(200 billion)訓練步驟,得到了 340 萬(3.4 million)個任務的結果。

目前,團隊的智慧體已經能夠順利完成每次程式生成的測試任務,而且測試資料顯示,智慧體的能力(相比於上一代)有了整體的提高。

除此之外,團隊還發現智慧體表現出一般的啟發式行為(heuristic behaviours),如實驗(experimentation),該行為出現在於許多工中,而不是專門針對單個任務的行為。團隊有觀察到智慧體在遊戲中使用不同的工具,包括利用障礙物來遮擋自己、利用物品建立坡道。隨著訓練的進展,智慧體還偶爾會出現與其他玩家合作的行為,但目前團隊還不能確認這是否是有意識的行為。

結語:“自學”讓 AI 更智慧

Open-Ended Learning Team 正在訓練一個新的智慧體,它不需要從頭開始訓練資料,就能適應新的遊戲。這個智慧體將比僅使用強化學習方法的智慧體更加“智慧”。

大量的資料訓練一直以來是人工智慧發展繞不開的難題,此次如果能大量減少訓練資料,並使其獲得跨領域的自主學習能力,那麼人工智慧的能力將能得到進一步的提升。