1. 程式人生 > 資訊 >王者榮耀裡的絕悟:AI 江湖裡的“武林高手”

王者榮耀裡的絕悟:AI 江湖裡的“武林高手”

2021 世界人工智慧大會走到了第四年,給人最明顯的感受就是 AI 已經慢慢從酷炫的概念,逐漸被應用到了更多的場景中。化有形於無形,潤物細無聲,不知不覺中人們與 AI 的交集已經越來越多。

不過,就如馬化騰在開幕式中提到的“對 AI 的未知仍然大於已知”,在考慮到未來“通用 AI”成熟後面臨的道德搖擺問題之前,可能先要去解決的是路徑上的技術難題。而在這次的 AI 大會上,騰訊帶來的策略協作型 AI 王者絕悟,也許能夠成為未來通用 AI 探索之路上的一個“急先鋒”。

王者絕悟的“武林高手”晉升之路

王者絕悟,實際上是王者榮耀與騰訊 AI Lab 在遊戲場景下研究的成果。

用通俗一點的話來理解“策略協作型 AI”,“策略”指的是 AI 能夠通過獲取到的資訊,分析局勢優化策略,做出更有利於獲勝的行為;“協作”指的是操作不同英雄的多個智慧體能夠互相配合,協同推進博弈。

一旦明白了所謂的“策略協作型 AI”的定義,也許就能理解為什麼在 8 日下午的“職業人氣選手 VS 王者絕悟”表演賽上,王者絕悟能夠表現如此出色——團戰越塔收割,完美撤退;以一敵眾,掩護隊友撤退,穩固優勢等等。

2021 世界人工智慧大會

“職業人氣選手VS王者絕悟”表演賽現場

有趣的是,王者絕悟並非一開始就這麼“聰明”。事實上,回顧它的發展歷程,特別像經典武俠小說裡,一個武林高手的成長故事。

在 18 年面世的時候,王者絕悟通過監督學習,模擬了職業選手的操作,達到了頂尖業餘水平。19 年,它開始往深度強化學習課題上深入,達到了職業電競水平。

好比一個初出茅廬的毛頭小子,開始只能靠跟著師傅,“模仿”招式學習武功。但畢竟只是“模仿”,運氣好學到的是“九陽神功”,運氣不好可能就只能學到個“葵花點穴手”。而到了深度學習階段,他決定不再模仿,而是開始自己修煉,逐漸擺脫了那些“套路化”的招式。

到了 2020 年,王者絕悟又通過課程化自我博弈,從單個或者固定英雄組合,高效地擴充到更多英雄組合的學習。

而在騰訊 AI Lab 高階研究員、王者絕悟 AI 模型負責人邱福浩描述的王者絕悟最新版本中,它進一步引用了多輪組合博弈和層次化的強化學習演算法。也就是說,現在王者絕悟不僅能和你直接戰鬥,甚至在戰鬥之前的 BP 環節,就已經開始思考策略,並且戰局中也能夠持續調整策略來應對各種局面。

用邱福浩的來說,如今的王者絕悟,已經達到全英雄職業電競水平。

王者榮耀與騰訊 AI Lab 團隊成員現場答疑

但是,就像改變世界的是“武道”,不是“武術”。王者絕悟在遊戲場景、電競行業中都有著直接、有效的幫助。但是,這還不足以稱其為“通用 AI 路徑上的一個急先鋒”。

真正值得一提的,是王者絕悟背後所代表的技術發展浪潮。

“人工 + 智慧”向自主智慧的進化

現如今,AI 對於各行各業的賦能,已經不用多說,從上下班打卡的人像識別、到陪玩遊戲的語音助理…其價值已經被大家廣泛認知並認可。

但是,AI 的開發、訓練、除錯的過程中,如果完全放到現實中去進行,存在成本高、風險大的問題。因此,遊戲是最好的虛擬化場景。從簡單到複雜、從低階到高階,AI 研究的不同歷史時期,都能找到對應的、不同複雜度的遊戲作為測試相關技術主要難題的技術試驗場。

2016 年,AlphaGo 一戰成名。作為許多年前的“第一批 AI 網紅”,AlphaGo 的技術邏輯並不難理解:通過“走棋網路”模仿棋手,然後藉助樹搜尋,分析戰況,推演未來的每一步棋的變化,接著憑藉估值網路,分析局勢,判斷勝率,最後做出行動。

AlphaGo 對陣李世石

但是,AlphaGo 僅僅是單體智慧決策,而且圍棋是一個規則明確、完全資訊透明的單人遊戲。如今,真正在各個場景下發揮重大應用價值的,是技術相對更加複雜的多智慧體決策,這也就對測試環境提出了更高的要求。

簡而言之,就是要模擬出一個工廠之類的環境,測試如何讓工廠裡的各個機器人在不吵架(或者可以吵架)的前提下,既完成自己的小目標,也完成好組織要求的“裝好一輛汽車”的大目標。

現實情況下,不可能天天給科學家們找幾家工廠來實驗。於是,谷歌、Facebook、特斯拉等公司,開始直接或者讓投資組合下的公司開啟多智慧體 AI 在多人競技遊戲環境下的實驗,而在中國,王者榮耀與騰訊 AI Lab 一同推出了王者絕悟。

不過,為什麼偏偏是王者絕悟;或者說,為什麼說王者榮耀能成為一個絕佳的研究環境呢?

“王者榮耀的遊戲機制具有很強的多人協作性、在不對稱資訊下博弈空間極大、協作競技性很強,非常適合使用多智慧體人工智慧技術來提高生產和測試效率。此外,王者榮耀產品中的視野非全域性性,敵我雙方的實時位置、狀態能資訊非理想透明,遊戲測試環境中能提供豐富的資料,模擬的場景,為研究模仿學習提供了保障;再者,天然的層次結構,在高層次對應大局觀,在低層次中對應了微操,適合層次強化學習研究。”騰訊互動娛樂天美 L1 工作室總經理、王者榮耀執行製作人黃藍梟說到。

2020 年,王者絕悟正式與玩家“見面”

與 AlphaGo 相比,王者絕悟在技術複雜度與應用價值上,都有了顯著的提升。據瞭解,王者絕悟在一局裡有高達 10 的 20000 次方種操作可能性,整個宇宙原子總數也只是 10 的 80 次方。

面對這麼複雜的決策,王者絕悟這幾年飛速成長,訓練效率非常高,一天的訓練強度高達人類 440 年。

表面上,選手和王者絕悟打了一場電競表演賽。但是實際上,王者絕悟背後,是 AI 從單體智慧互動,到與多智慧體互動的發展變化,這是其一。其二,是 AI 成長模式的進化:人工干預開始減少,機器智慧對於環境的自主學習能力大大增強,從模仿學習,到深度學習,從“人工 + 智慧”向自主智慧轉化。

如今,王者絕悟已經有了幾個兄弟,可以應用於足球、FPS、RTS 遊戲,並且都達到了國際領先水平,其可遷移性得到了論證。此外,當王者絕悟從 0 到 1 去學習進化,並發展出一套合理的行為模型之後,其中的方法和經驗,也能夠在其他醫療、製造、無人駕駛等場景中得到運用。

以上種種,一方面,代表著人們距離多智慧體的大範圍實際應用在技術層面又向前走了一步;另一方面,也意味著“通用人工智慧”在技術路徑上,也不再那麼遙不可及。這才是王者絕悟背後真正的價值所在。

2021 世界人工智慧大會現場,王者絕悟展區:觀眾圍觀王者絕悟演示

【結束語】

1943 年,圖靈製造了一個叫做“巨人”的機器,用於破解德軍的密碼電報,標誌著 AI 的誕生。2012 年,華裔科學家吳恩達展現了一個超強的神經網路,在自助觀看千萬張圖片之後,識別圖片內容,開啟了 AI 的新時代。

可以發現,AI 與人類對戰,並不是其誕生的理由;AI 戰勝人類,也不是其誕生的目的。這是人們在走向通用 AI 上的一條“捷徑”,讓人們以一種更低成本、更安全、更有效的方式走向那個科幻般的未來。

王者絕悟的多智慧體博弈和自生長能力,是通用人工智慧(AGI)成長路徑上的關鍵技術節點。在如此複雜的虛擬環境下,如果 AI 能夠表現出較高的智慧水平,那麼,在真實世界中的應用前景就更值得期待了。

當然,在這其中,王者絕悟並不是第一個,也不會是最後一個。但是,數字時代的潮水還在向前奔流,每一朵大的浪花都值得銘記。