1. 程式人生 > >DeepMind新發布通用演算法AlphaZero ,通用AI還遠麼?

DeepMind新發布通用演算法AlphaZero ,通用AI還遠麼?

    今天,在 AlphaGo Zero 論文釋出的一個多月之後,在我們覺得 AlphaGo Zero 已經成為盡善盡美的圍棋之神的時候,DeepMind 又悄悄地放出了一篇新論文。這次 DeepMind 去掉了「AlphaGo Zero」中表示圍棋的「Go」,這是一個更通用的、能下各種棋類的、而且在圍棋中的表現更上一層樓的通用強化學習模型,「AlphaZero」。     AlphaZero 是 AlphaGo Zero 的通用化進化版本,它繼續保持了 AlphaGo Zero 中不需要人工特徵、利用深度神經網路從零開始進行強化學習、結合蒙特卡洛樹搜尋的特點,然後更新網路引數,減小網路估計的比賽結果和實際結果之間的誤差,同時最大化策略網路輸出動作和蒙特卡洛樹搜尋可能性之間的相似度。
     AlphaZero:一種可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平的新演算法。據稱,新的演算法經過不到 24 小時的訓練後,可以在國際象棋和日本將棋上擊敗目前業內頂尖的計算機程式(這些程式早已超越人類世界冠軍水平),也可以輕鬆擊敗訓練 3 天時間的 AlphaGo Zero。

AlphaZero 與 AlphaGo Zero 之間的具體區別有以下幾個:
  1. AlphaGo Zero 會預計勝率,然後優化勝率,其中只考慮勝、負兩種結果;AlphaZero 會估計比賽結果,然後優化達到預計的結果的概率,其中包含了平局甚至別的一些可能的結果。
  2. 由於圍棋規則是具有旋轉和映象不變性的,所以專為圍棋設計的 AlphaGo Zero 和通用的 AlphaZero 就有不同的實現方法。AlphaGo Zero 訓練中會為每個棋局做 8 個對稱的增強資料;並且在蒙特卡洛樹搜尋中,棋局會先經過隨機的旋轉或者映象變換之後再交給神經網路評估,這樣蒙特卡洛評估就可以在不同的偏向之間得到平均。國際象棋和日本象棋都是不對稱的,以上基於對稱性的方法就不能用了。所以 AlphaZero 並不增強訓練資料,也不會在蒙特卡洛樹搜尋中變換棋局。
  3. 在 AlphaGo Zero 中,自我對局的棋局是由所有之前的迭代過程中出現的表現最好的一個版本生成的。在每一次訓練迭代之後,新版本棋手的表現都要跟原先的表現最好的版本做對比;如果新的版本能以超過 55% 的勝率贏過原先版本,那麼這個新的版本就會成為新的「表現最好的版本」,然後用它生成新的棋局供後續的迭代優化使用。相比之下,AlphaZero 始終都只有一個持續優化的神經網路,自我對局的棋局也就是由具有最新引數的網路生成的,不再像原來那樣等待出現一個「表現最好的版本」之後再評估和迭代。這實際上增大了訓練出一個不好的結果的風險。
  4. AlphaGo Zero 中搜索部分的超引數是通過貝葉斯優化得到的。AlphaZero 中直接對所有的棋類使用了同一套超引數,不再對每種不同的棋做單獨的調節。唯一的例外在於訓練中加在先前版本策略上的噪聲的大小,這是為了保證網路有足夠的探索能力;噪聲的大小根據每種棋類的典型可行動作數目做了成比例的縮放。
總結

    在人類把棋類作為人工智慧研究的重要關卡以來的幾十年間,研究者們開發出的下棋演算法幾乎總是避免不了人工特徵和為具體的棋類做的特定性優化。如今,完全無需人工特徵、無需任何人類棋譜、甚至無需任何特定優化的通用強化學習演算法 AlphaZero 終於問世,而且只需要幾個小時的訓練時間就可以超越此前最好的演算法甚至人類世界冠軍,這是演算法和計算資源的勝利,更是人類的頂尖研究成果。DeepMind 願景中能解決各種問題的通用 AI,看起來也離我們越來越近了。

相關推薦

DeepMind通用演算法AlphaZero ,通用AI

    今天,在 AlphaGo Zero 論文釋出的一個多月之後,在我們覺得 AlphaGo Zero 已經成為盡善盡美的圍棋之神的時候,DeepMind 又悄悄地放出了一篇新論文。這次 De

傑雲科技高性能通用ARM雲終端

瘦客戶機 雲終端 零客戶機 隨著雲計算產業在國內的蓬勃發展,ARM雲終端以其優良的可靠性、超長的使用壽命、安全的軟件系統,超高的性價比等特點,越來越受到市場的青睞。深圳市傑雲科技有限公司率先基於國產高性能ARM處理器,發布了最新款的J90系列雲終端,從指標上看,該型號雲終端是目前硬件規格最高、軟件

一篇文章瞭解的Java JDK 11

Java JDK 11刪除了CORBA,Java EE和JavaFX支援,但添加了十幾個主要新功能。 Java Development Kit(JDK)11現已普遍可用,可供生產使用,提高了工作效率,並提供了實現HTTP/2的HTTP客戶端API。 Java S

2018年的高速資料採集卡彙總

技術不停的迭代,研究不斷深入,對測試測量中的資料採集卡要求也越來越高,為了應對工程師們各種苛刻的要求,產品需要不斷的推陳出新,下面是這一年來新推出產品的彙總。 M2p.49系列是16bit高精度採集卡,取樣率從20 MS / s到125MS/s,通道數最多能到8通道。像

IPFS週報(12.3-12.9)來看的IPFS架構圖吧~

週報週期:2018年12月3日——2018年12月9日。 我們從交易、社群、技術這幾個層面蒐集資料供大家參考。 概述 本週的程式碼更新較少,不知是否因為臨近聖誕節(~ ̄▽ ̄)~ 本週在js-ipfs的更新中釋出了一副IPFS架構圖,清晰地描述了Core、Gateway、http-ap

盤點2018年礦機 只有這5款礦機在盈利

最近一段時間有不斷有著很多新型比特幣礦機宣佈上市,在宣傳上它們聲稱擁有更高的算力,同時消耗更少的能源。然而,由於比特幣價格持續低迷,許多新推出的礦機都未能盈利,其中很多礦機甚至還沒有發貨。這主要的原因無疑是幣價低迷所致,但並不是所有礦機在這個熊市都賺不了錢的,還是有幾款比較出色的礦機即使在熊

一張圖看懂阿里雲的物聯網裝置上雲神器——HiTSDB + IoT套件

近日,阿里雲針對物聯網企業遇到的裝置認證困難、安全問題突出等問題,釋出了HiTSDB +IoT 套件的一體化解決方案,能夠支援物聯裝置快速上雲,高效裝置管理,資料安全,低成本海量資料儲存,實時掌握裝置狀態,快速發現數據價值等,可以讓更多物聯網企業快速擁抱雲端計算

在MWC史上最尬AI手機,LG下一步可能想放棄全球手機市場

LG在今年的MWC大會前夕,三星新機S9幾乎包攬了中國手機行業80%的關註度,不過同樣來自韓國的LG卻相對遇冷。LG每年都會在MWC左右發布旗艦機,今年則帶來了主打AI功能的LG V30s ThinQ。中國媒體對ThinQ的冷淡也在意料之中,畢竟LG這幾年在中國市場節節挫敗,近半年來還反復傳聞已經退出中國手機

金山雲畫質增強KIE,AI賦能提升超清體驗

金山雲 畫質增強 自從蘋果開創無鍵盤設計時代之後,手機廠商便把人機交互中最重要的屏幕相關技術作為核心的差異化手段。除了不斷優化包括圖像采集相關的能力,更是在屏幕尺寸和分辨率上不斷推陳出新。比如手機從厚到薄,從5英寸以內大小逐漸走向6寸以上千萬像素大屏配置等,小米僅僅幾年時間就將屏幕分辨率從480P升級

《2017全球人工智能人才白皮書》丨解讀世界頂級AI牛人的秘密——騰訊研究院

分享圖片 inf 大學 blank 也會 全球 秘密 白皮書 spa 《2017全球人工智能人才白皮書》發布丨解讀世界頂級AI牛人的秘密——騰訊研究院:下載鏈接:http://www.tisi.org/c16 這個報告寫的很好,排版布局,表格,色調,內容都值得一看,比清華

Vertebrae 的SDK!

本地 科技 新的 lan .html art 賺錢 支付 ebr ? (52VR開發網2017年5月15日訊) VR的優先級列表中的貨幣化很高。 雖然科技公司和品牌已經開始投入更多的內容瀏覽器創作,但從內容瀏覽器中賺錢仍然是一場艱巨的戰鬥。 ?但是,貨

Apache Flink 1.3.0正式及其功能介紹

space str either update sse ant 新功能 sid ask 下面文檔是今天早上翻譯的,因為要上班,時間比較倉促,有些部分沒有翻譯,請見諒。 2017年06月01日兒童節 Apache Flink 社區正式發布了 1.3.0 版本。此版本經歷了四個

api-gateway實踐(8)服務網關 - 測試(服務端API)

isp logs rest span com 點擊 功能 size json對象 一、網關引擎 網關引擎地址:http://10.110.20.191:8080/api-gateway-engine/ 二、服務提供者 服務提供者地址:http://10.110.20.19

xcode7betaswift20帶來哪些變化

帶來 tk1 0kb 發布 otg oda htm tm4 http snaker250%E5%8F%91%E5%B8%83java%E8%BD%BB%E9%87%8F%E7%BA%A7%E5%B7%A5%E4%BD%9C%E6%B5%81%E5%BC%95%E6%93%8

VMwarefling 虛擬桌面的盲水印

水印 虛擬桌面 安全本周,VMware發布了一個新的fling – 基於Horizon虛擬桌面的盲水印。什麽是虛擬桌面的盲水印?https://labs.vmware.com/flings/desktop-watermark這個fling背後的技術非常令人興奮。它可以在Horizon虛擬桌面的屏幕上,疊加一層

51CTO學院~~帶你遇見更好的自己(2017.10.23-10.29)

開發 運維 office 設計 金融財會 職場 人工智能 大數據大家好,又到了我們一周一次新課推薦啦,本周為大家推薦的是10.23-10.29期間學院發布的新課程,課課們都翹首以待你們去認領學習啦,你們準備好了麽?上周給大家梳理的是上上周的新課,大家都非常喜歡,想要了解上上周新課的戳鏈接:http://51e

51CTO學院~~帶你遇見更好的自己(四)(2017.11.06-11.12)

新課推薦 開發 運維 人工智能 雲計算 大數據 編程 軟考 設計 遊戲 金融財會 職場 辦公hello,各位小仙女(dan)、小哥哥(shen)們(dogs),雙11已過,想必大家的日常除了等快遞已生無可戀。小編姐姐來撒把狗糧在下面,如果你的雙11不是醬紫渡過的,而是剁手剁手再剁手,恭喜你的雙11很圓滿呀~~

51CTO學院~~帶你遇見更好的自己(六)(2017.11.20-11.26)

新課推薦 開發 運維 辦公 金融財會 一周的時間匆匆即逝,又到了給你們出新課列表的時候了,小編每周都辛苦的給你們推課,也不幾道你們到底看了沒,想到小編之前做講師的時候,那可是一把鼻涕一把淚的催著同學們學習。有個段子特別能描述當時的心情:“老師這個職業吧,說的文明點就是每天帶著學生在知識的海洋裏暢遊。然而暢遊一

51CTO學院~~帶你遇見更好的自己(七)(2017.11.27-12.03)

新課 開發 運維 設計 office 以往新課發布的開場白,都是小編姐姐逗比的閑扯,小編姐姐準備轉變一下畫風,以後的新課發布開場白就談談每周我對於職場或者生活的一點小理解吧。上周看到一篇文章,關於人和人的身價的差距:職場10年,為什麽有人已經當上了董事總經理,而有的人還是資深銷售經理?為什

51CTO學院~~帶你遇見更好的自己(九)(2017.11.04-12.17)

開發 運維 辦公 設計 理財 新的一周新的失望,大家好,你們的毒雞湯姐又華麗麗的上線了。今天想跟大家聊聊這個投資。為什麽要說這個呢?因為最近小編的媽媽(一位三四線小城市的中年婦女),居然開始玩區域鏈了,這使得小編不寒而栗,畢竟我現在都沒徹底搞清楚區域鏈。曾記得我是2014年的時候開始聽說比