2000 億次開放學習後，DeepMind 的智慧體“成精”了

阿新 • • 發佈：2021-08-05

有這樣一批智慧體，在完全沒有見過的遊戲任務裡，也學會了遊刃有餘地解決目標。

譬如面對下面這樣一個高地，它們要取到上面的紫色金字塔。

沒有跳躍功能的它們，看似開始“焦躁”地亂扔起東西來，實則其中一塊板子正好被“扔”成了樓梯，這不就巧了，目標完成！

你可能會說這只是“瞎貓撞死耗子”罷了，但多次實驗發現，該智慧體可以復現該方法的！

而且它還會不止一種方法，“我不上去，你下來”—— 直接藉助板子把目標扒拉下來了！

這也行？

而這些成精了的智慧體來自 DeepMind。

現在，為了讓 AI 更加多才多藝、舉一反三，他們專門給智慧體打造了一個包含了數十億遊戲任務的“元宇宙”XLand：讓智慧體在不斷擴充套件、升級的開放世界中通過上億次的訓練練就了不俗的泛化能力。

最終效果就像前面看到的，無需在新遊戲中從頭訓練，它們就能自主解決任務！

DeepMind 也因此發表了一篇論文，就叫做：《從開放學習走出來的通用智慧體》。

如何做到的呢？

“元宇宙”XLand

最功不可沒之一的就是這個龐大的“元宇宙”模擬空間。

這是一個“遊戲星系”，裡面有無數個“遊戲星球”，每個星球上的遊戲按競爭性、平衡性、可選項、探索難度四個緯度進行區分。

比如圖左上介紹的“搶方塊”遊戲：藍色智慧體需要把黃色的立方體放到白色區域，紅色智慧體需要把同一個立方體放在藍色區域。

啊想想就頭大，所以這個遊戲的競爭性值都拉滿了，而由於雙方的條件/目標都一樣，所以平衡性值也很高，因為需要定位目標區域，所以探索難度並不小。

再比如圖右上的“將球體和立方體配對”：藍色/紅色智慧體要將幾何體按顏色歸類到一起，完成任意一組配對就行。這個遊戲的可選性值就拉滿了，但競爭性就沒那麼強。

ps. 藍色遊戲代表是完全競爭性的，粉色為完全合作性的。

不管是哪種遊戲任務，這批智慧體都從最簡單的開始（比如僅“靠近紫色立方體”這種），一步步解鎖複雜度升級的遊戲（比如和另一個智慧體“捉迷藏”），其中每一項遊戲都有獎勵，智慧體們的目標就是將拿到的獎勵最大化。

而智慧體“玩家”們是通過閱讀收到的目標的文字描述、觀察 RGB 影象來感知周圍環境來完成任務。

生成的新任務要基於舊任務，且難度要剛剛好

除了上面這個開放式的學習環境，訓練方法也很重要。

研究人員使用的神經網路訓練架構提供了一種針對智慧體內部迴圈狀態的注意力機制 —— 通過估計所玩遊戲的子目標，來持續引導智慧體的注意力。

這種策略讓智慧體學習到更具普遍能力的策略。

還有一個問題：如此廣闊的遊戲環境，什麼樣的遊戲任務分佈能產出最善於泛化的智慧體呢？

研究人員通過持續調整每個智慧體的遊戲分佈發現，每個新任務都要基於通關的舊任務生成，不能太難，也不能太容易。

這個也基本符合一般認知。

它們先經歷了四次迭代：

每個任務由多個智慧體參與競爭，在舊任務上適應得好的智慧體，會帶著權重、瞬時任務分佈、超引數等參與到新一輪任務中繼續學習。此時也會加入新的智慧體讓競爭“活”起來。

智慧體表現出明顯的零樣本學習能力

最後生成的第五代智慧體，在 XLand 4000 多個“星球”裡玩了大約 70 萬個遊戲，每一個智慧體都經歷了 2000 億次訓練，完成了 340 萬個獨特任務。

到了這個時候，這些智慧體已經能夠順利完成每一項評估任務（除了少數即使是人類也不可能完成的）。

整個實驗也最終表明，通過開發像 XLand 這樣的環境和這樣開放式地訓練方法，一些基於 RL 的智慧體已表現出明顯的零樣本學習能力（0-shot）。

比如使用工具、打攔（ridge-fencing）、“捉迷藏”、找立方體、數數、合作或競爭等。

研究人員也觀察到智慧體們面對新任務時不知道“什麼是最好的解決辦法”，但它們會不斷地試驗直到達到目標。

這個過程中出現的有趣的”緊急啟發式行為”，除了開頭提到的搭梯子，還有這個臨時更換更簡易目標的例子 ——

在一個遊戲中該智慧體需要從 3 個目標中任選一個完成：

1、將黑色金字塔放到黃色球體旁邊；

2、將紫色球體放到黃色金字塔旁邊；

3、將黑色金字塔放到橙色區域。

它一開始找到了一個黑色金字塔，想去完成目標 3，但在搬運過程中看到了黃色球體，於是它就在 1 秒內改變了主意，選擇直接將金字塔放在黃色球體旁邊完成目標 1。（整個過程一共耗時 6 秒）

最後，看完了 DeepMind 的研究，再拋給大家一個問題：我們離真正的通用人工智慧還有多遠？

（ps. 你發現了嗎，文章最開頭高臺取金字塔任務中的小紅智障體就不行，一直打轉，面對小藍搭好的梯子甚至直接毀掉）

論文地址：

https://arxiv.org/abs/2107.12808

參考連結：

https://deepmind.com/blog/article/generally-capable-agents-emerge-from-open-ended-play

2000 億次開放學習後，DeepMind 的智慧體“成精”了

有這樣一批智慧體，在完全沒有見過的遊戲任務裡，也學會了遊刃有餘地解決目標。

2000 億次訓練，只為能讓 AI“自學”新遊戲

據外媒報道，Open-Ended Learning Team（開放式學習小組）在 Deepmind 的 Blog 上發表了一篇關於訓練一個無需與人類互動資料就能玩不同遊戲的 AI 智慧體（AI agents）的文章。

ie 記憶體洩露谷歌不洩露_第二次資料洩漏後，Google +將在4月而不是8月關閉

ie 記憶體洩露谷歌不洩露 Back in October, a security hole in Google+’s APIs lead Google to announce it was shutting down the service. Now, a second data leak has surfaced, causing the

星河區塊鏈：10.16 大盤二次陰跌後，三次探底是否會出現？

訊息解讀 1.據Coindesk 10月16日訊息，奈及利亞聯邦政府正在制定一項計劃，以建立“數字奈及利亞”為願景，促進採用國家加密貨幣。該國聯邦通訊與數字經濟部和國家資訊科技發展局（NITDA）已合作制定了採用

安裝不下六次ubuntu系統後，我終於知道了雙系統的正確安裝方法！

本博文U盤啟動方式為UEFI,Legacy不適用. 對於初入linux的小白,多數推薦ubuntu系統,不僅因為其桌面環境對於小白比較友好(GNOME桌面真心不錯,deepin黨互噴),其次主要因為它有完整的社群支援,許多問題可以通過搜尋引擎找

魔獸懷舊服開放TBC後，DKP團會重新成為主流嗎？

隨著魔獸懷舊服TBC資料片的臨近，越來越多的玩家開始跳出60年代展望未來，近日就有玩家大膽暢想，認為TBC開放後DKP團將全面去掉G團，重新走向輝煌。

共享充電寶紛紛宣佈盈利後，小電科技為何虧了 1 個億

如果說怪獸充電讓市場看到了共享充電寶的盈利前景，剛剛向港股遞交招股書的小電科技，則再一次用虧損向人們證實，共享充電寶單靠一條腿走路的商業模式，仍然具有較大不確定性。

蘋果搜歌神器 Shazam 官宣：已實現超 500 億次比對標記，識別曲目逾 10 億次

6 月 17 日訊息在今年的 WWDC 上，蘋果宣佈將推出 ShazamKit，讓開發者能把 Shazam 的音訊識別技術直接整合到他們的 App 裡。ShazamKit 將於今年晚些時候正式釋出。

QuantumScape 公司提前實現固態電池目標：承受 800 次充電迴圈後，保持 80% 容量

11 月 28 日訊息，固態電池初創公司 QuantumScape 本月初宣佈，2021 年的目標已提前實現。瞭解到，該目標與電池的壽命有關，即應該能夠承受 800 次充電迴圈，估計相當於 24 萬英里（386000 公里）的行駛里程（假設每

多次測試延期後，NASA 登月專案 SLS 的火箭從發射臺撤下進行維修

感謝網友 S_H、SuperHeavy 的線索投遞！

訊息稱 440 億美元收購完成後，馬斯克將擔任 Twitter 臨時 CEO

北京時間 5 月 5 日晚間訊息，據報道，CNBC《華爾街直播室》（Squawk on the Street）主持人大衛・費伯（David Faber）今日稱，在完成 440 億美元收購 Twitter 交易後，預計特斯拉 CEO 埃隆・馬斯克（Elon Musk）將暫

學習Jmeter，這一篇就夠了

Jmeter在軟體測試中的常用功能,看完你應該就會了 1、Jmeter的下載安裝 1.1 Jmeter的官方網址是：http://jmeter.apache.org/；下載最新的包到本地進行解壓，路徑按照自己的喜好自己設定；根據下圖官網的提示，Jmeter是

抵制“二創”一個多月後，電影解說號再次完成了避險動作

四月初，騰訊、愛奇藝等長視訊平臺聯合七十餘家影視機構抵制短視訊“二次創作”，隨後五百多位藝人聯署發聲，反對短視訊的侵權舉動。四月底，版權管理局局長也表示，需繼續加大對短視訊領域侵權行為的打擊力度。

echarts對提示框資料（tooltip）使用formatter進行修改後，前面的小圓點不見了

需求：如下圖所示，我需要對提示框資料進行處理，使其資料都為整數，但是在使用 formatter 處理後，發現前面的顏色小圓點不見了！

RX 6500 XT 4GB 顯示卡釋出後，AMD 悄悄刪除又恢復了“4GB 視訊記憶體不夠用”的部落格

感謝網友何必回頭的線索投遞！

俄烏衝突發生後，中國智慧手機在俄羅斯銷量暴增

感謝網友 MissBook、姐姐大人、軟媒使用者1122656、石原里美幸福的線索投遞！

原神：戴因解開了丘丘人的“面具之謎”後，很多玩家都坐不住了！

隨著層巖巨淵的主線劇情推進，相信很多玩家都和我一樣為旅行者捏了一把汗，不僅需要幫助裡面的NPC找東找西，還需要直面遺蹟巨蛇、黑蛇騎士等BOSS和魔物，同時戴因的出現也給層巖巨淵蒙上了神祕的面紗，隨著而來的也有

深淵12層滿星後，抽卡比以前非了……

之前甘雨，神子，心海，都是50發以內出的，估計是新手光環。然後深淵滿星了，抽溫迪，綾人都是大保底，用了差不多150抽才出。

發行商：自從蘋果將英特爾 CPU 換為自研晶片後，Mac 遊戲生態就迎來了新機遇

5 月 8 日訊息，Feral 近期釋出了《全面戰爭：戰錘 3》，這是基於 Games Workshop 的戰錘幻想虛構宇宙的全面戰爭系列最新部分的 Apple Silicon 優化版本，詳情可見此前報道。Feral Interactive 在接受外媒 MacRumor

完了，這個硬體成精了，它竟然繞過了 CPU...

我們之前瞭解過了 Linux 的程序和執行緒、Linux 記憶體管理，那麼下面我們就來認識一下 Linux 中的 I/O 管理。

2000 億次開放學習後，DeepMind 的智慧體“成精”了

“元宇宙”XLand

生成的新任務要基於舊任務，且難度要剛剛好

智慧體表現出明顯的零樣本學習能力

相關推薦