深度強化學習（Deep Reinforcement Learning）的資源

阿新 • • 發佈：2019-01-26

Google的Deep Mind團隊2013年在NIPS上發表了一篇牛x閃閃的文章，亮瞎了好多人眼睛，不幸的是我也在其中。前一段時間收集了好多關於這方面的資料，一直躺在收藏夾中，目前正在做一些相關的工作（希望有小夥伴一起交流）。

一、相關文章 關於DRL，這方面的工作基本應該是隨著深度學習的爆紅最近才興起的，做這方面的研究的一般都是人工智慧領域的大牛。最早（待定）的一篇可以追溯到2010年，Lange[1]做的相關工作。提出了Deep auto-encoder用於基於視覺的相關控制，和目前的架構其實已經很相似了。接下來，在2011年，Cuccu等人[2]（Jurgen Schmidhuber課題組的），做了

一些相關的工作（有和DRL靠近的意思）。關於這位瑞士的大牛Jurgen先生，他去年寫了一篇關於DL的綜述，這不是關鍵，關鍵是這貨引用了888篇參考文獻，這貨必定受了中國高人指點（因為中國人很喜歡的），事實上他也做中文識別（我都驚呆了）。還是2011年，Abtahi等人[3]用DBN替代傳統的強化學習中的逼近器（做RL的人是不是很親切，和Deep mind就差一點兒額！有木有覺得很可惜，幾乎都摸到Nature的門上了）, 。2012年的時候，Lange[4]這人更進一步開始做應用了，提出Deep Fitted Q學習做車輛控制，不過效果不咋地。後來2012年的時候，就有人開始寫深度強化學習的相關應用前景和綜述

了，比如Arel[5]（大牛們還是看的比較遠的）的。然後時間就到了2013年，Deep Mind團隊在nips上發表了他們的文章[6]，業界都驚呆了，（RL和DL還可以這樣玩兒）。但是，剛出來的時候，他們不給程式碼，各路牛人震驚之餘開始搞逆向工程，最後真有一幫人把程式碼寫出來了（囧啊！我為什麼寫不出來呢？）後來更給力的就是Deep mind[7]居然又更進一步發到nature上去了。反正我當時知道後都驚呆了，人工智慧領域的人開始狂歡了，各種搖旗吶喊的人，然後現在這東西開始變得炙手可熱，不知道會不會像Google眼鏡一樣。關於DRL的發展就是這個樣子，接下來就看看那些個人怎麼給吶喊的吧！二、

科學評論

還有很多很多就不一一列舉了。

三、相關程式碼

這部分應該是大家最關心的，我想大部分看到文章的第一想法是程式碼呢！擦，其實我也是這麼想的，誰叫自己的coding能力不夠呢！沒辦法，本人在網上（github.com）深挖了好久，沒想到大牛真的好多好多啊！

1. 排在第一的當然是google自己公佈的程式碼啊！真是業界良心啊！https://sites.google.com/a/deepmind.com/dqn/ 。可惜註釋好少。。。。。是基於Torch 7的程式碼，本人又硬著頭皮學了lua。話說我這幾個月我就在和各種指令碼語言打交道，都是淚啊！備註，deep mind的git地址https://github.com/deepmind 。話說沒有GPU的電腦真心不要跑了，我跑了13個小時才跑了大概1/20~~~建議在ubuntu下面跑，最好版本高一些；
2. 然後就是各路人馬（大牛們）的逆向工程。https://github.com/spragunr/deep_q_rl ，作者Spragunr公佈的基於python各種工具的程式碼，這位大牛利用外界工具的能力真實吊炸天，好多工具啊！opencv、cython、rl-glue、theano等等。我表示在ubuntu14.04LTS上面配置了好久，發現電腦沒有GPU，跑不起來，整個人都不好了，還有一個貌似是其學生的https://github.com/brian473/neural_rl ，裡面也需要配置python的庫，theano之類的，步驟比較多~不過大牛的學生都是大牛。
3. https://github.com/kristjankorjus/Replicating-DeepMind ，這裡Kristjankorjus大牛基於convnet的東東，釋出了這一程式碼，也是基於python的，我表示沒有跑過，不清楚狀況，貌似也要GPU，也要配置一堆庫。
4. 還有一些基本都是他們的fork出來改進的，讀者自己去挖吧！

基本上重要的就是這麼多了，然後外圍的關於Torch 7和其他東西的安裝就不提了。

三、論壇

這是google上的一個小組，裡面有不少人討論DQN的演算法以及程式碼使用心得，有興趣的可以加入。

PS:歡迎各位大小牛牛補充~~~

[1]S. Lange and M. Riedmiller, "Deep auto-encoder neural networks in reinforcement learning," in IJCNN, 2010, pp. 1-8.

[2]G. Cuccu, M. Luciw, J. Schmidhuber, and F. Gomez, "Intrinsically motivated neuroevolution for vision-based reinforcement learning," in Development and Learning (ICDL), 2011 IEEE International Conference on, 2011, pp. 1-7.

[3]F. Abtahi and I. Fasel, "Deep belief nets as function approximators for reinforcement learning," RBM, vol. 2, p. h3, 2011.

[4]S. Lange, M. Riedmiller, and A. Voigtlander, "Autonomous reinforcement learning on raw visual input data in a real world application," in Neural Networks (IJCNN), The 2012 International Joint Conference on, 2012, pp. 1-8.

[5]I. Arel, "Deep Reinforcement Learning as Foundation for Artificial General Intelligence," in Theoretical Foundations of Artificial General Intelligence, ed: Springer, 2012, pp. 89-102.

[6]V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, et al., "Playing Atari with deep reinforcement learning," arXiv preprint arXiv:1312.5602, 2013.

[7]V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, et al., "Human-level control through deep reinforcement learning," Nature, vol. 518(7540), pp. 529-533, 2015.

來自：http://wanghaitao8118.blog.163.com/blog/static/13986977220153811210319/

深度強化學習（Deep Reinforcement Learning）的資源

深度強化學習（Deep Reinforcement Learning）的資源

聊天機器人（chatbot）終極指南：自然語言處理（NLP）和深度機器學習（Deep Machine Learning）

深度強化學習（一）： Deep Q Network(DQN)

遷移學習（transfer learning）、多工學習（multi-task learning）、深度學習（deep learning）概念摘抄

DQN（Deep Q-learning）入門教程（一）之強化學習介紹

深度學習--深度信念網路（Deep Belief Network）

機器學習與深度學習系列連載：第一部分機器學習（十三）半監督學習（semi-supervised learning）

《強化學習Sutton》讀書筆記（五）——時序差分學習（Temporal-Difference Learning）

深度知識追蹤（Deep Knowledge Tracing）

python資料分析：關聯規則學習（Association rule learning）

深度強化學習cs294 HW1: Imitation Learning

深度強化學習cs294 Lecture2: Supervised Learning of behaviors

終身機器學習（Lifelong Machine Learning）綜述

度量學習（Distance Metric Learning）介紹

深度神經網路（Deep Neural Network）

論文閱讀——矩陣填補模型之深度矩陣分解（Deep Matrix Factorization）

DQN（Deep Q-learning）入門教程（零）之教程介紹

DQN（Deep Q-learning）入門教程（二）之最優選擇

DQN（Deep Q-learning）入門教程（三）之蒙特卡羅法演算法與Q-learning演算法

DQN（Deep Q-learning）入門教程（四）之Q-learning Play Flappy Bird

深度強化學習（Deep Reinforcement Learning）的資源

相關推薦