2017年十本必讀的大資料&人工智慧領域書籍，你都讀過嗎？

阿新 • • 發佈：2019-01-09

【資料猿導讀】年關將至，回顧2017，小編記得自己曾在年初的時候給自己定下一個小目標——就是讀30本書。然而隨著春節的臨近，小目標卻成了遙不可及的夢。不知道在過去的一年中，你是否也制定過相似的目標，又是否一一實現了呢？沒做到沒關係，但目標還是要有的，萬一實現了呢。因此，貼心的小編就從2017年的【每週一本書】欄目裡為大家挑選了十本“最受歡迎”的書籍，希望能給對大資料或是人工智慧感興趣的朋友帶來一些幫助。

編輯 | abby

官網 | www.datayuan.cn

微信公眾號ID | datayuancn

part 1:工具篇

一、《機器學習之路——Caffe、Keras、scikit-learn實戰》

該書從內容方面共包含兩部分內容：機器學習篇和深度學習篇

機器學習篇（1～3 章）：主要從零開始，介紹什麼是資料特徵，什麼是機器學習模型，如何訓練模型、除錯模型，以及如何評估模型的成績。通過一些簡單的任務例子，講解在使用模型時如何分析並處理任務資料的特徵，如何組合多個模型共同完成任務，並在第3章初步嘗試將機器學習技術運用到股票交易中，重複熟悉這些技術的同時，感受機器學習技術在落地到專業領域時常犯的錯誤。

深度學習篇（4～9 章）：則主要介紹了一些很基礎的深度學習模型，如DNN、CNN等，簡單涵蓋了一些RNN 的概念描述。我們更關注模型的直觀原理和背後的生物學設計理念，希望讀者能夠帶著這些理解，直接上手應用深度學習框架。

作者介紹：

阿布，高四維，從2007年一直從事移動相關研發，曾就職奇虎360，百度等網際網路公司，擅長安全領域，資料探勘，機器學習，移動客戶端等技術。個人開發軟體“i美股”、“中國好聲音”等在各個市場可下載。

胥嘉幸，從北京大學研究生階段開始接觸機器學習領域，有很深的理論及數學方面獨特的見解與認知，後在百度從事資料發掘分析等工作。

二、《深度學習原理與TensorFlow實踐》

本書主要介紹了深度學習的基礎原理和TensorFlow系統基本使用方法。TensorFlow是目前機器學習、深度學習領域最優秀的計算系統之一，《深度學習原理與TensorFlow實踐》結合例項介紹了使用TensorFlow開發機器學習應用的詳細方法和步驟。同時，《深度學習原理與TensorFlow實踐》著重講解了用於影象識別的卷積神經網路和用於自然語言處理的迴圈神經網路的理論知識及其TensorFlow實現方法，並結合實際場景和例子描述了深度學習技術的應用範圍與效果。

本書從內容上共分為7個章節：

第1章：介紹了深度學習的由來以及發展趨勢，簡要說明了人工智慧、機器學習、深度學習等名詞概念之間的聯絡。

第2章：主要介紹了TensorFlow系統的基礎知識和一些重要概念。

第3章：通過對Kaggle競賽平臺上的Titanic問題的求解例項，介紹了TensorFlow系統的基本用法，並簡要介紹了機器學習問題中的一些常用的處理技巧。

第4章：介紹了CNN的基本原理和多個經典網路結構，並通過影象風格化的例項展示了CNN在更多場景下應用的可能性。

第5章：介紹了RNN、LSTM以及它們的多種變種結構，並通過例項介紹瞭如何構建實用的語言模型和對話機器人。

第6章：介紹了卷積神經網路與迴圈神經網路的結合，通過影象檢測和影象摘要兩個問題介紹了CNN+LSTM相結合的威力。

第7章：介紹了機器學習中非常重要的損失函式與優化演算法在TensorFlow中的實現，對實際使用深度學習解決問題都有極大幫助。

作者簡介:

喻儼，百納資訊（海豚瀏覽器）研發副總裁。2007年加入微軟亞洲工程院，2011年加入百納資訊負責海外業務線，從0到1做過多個專案，現致力於AI和大資料產品的研究與應用。

莫瑜，先後任職於微軟和海豚瀏覽器，從事搜尋引擎、音樂檢索/哼唱搜尋、內容分發推薦演算法和對話機器人技術研發。長期以來持續關注和實踐大規模資料演算法效能優化、搜尋引擎、推薦系統和人工智慧技術。

王琛，英國愛丁堡大學人工智慧專業碩士，現為百納資訊科技有限公司人工智慧方向負責人。

胡振邦，擁有博士學位，百納資訊科技有限公司高階演算法研究員，畢業於中國地質大學計算機學院地學資訊工程專業。畢業以來，一直從事影象識別方面的演算法研發工作，主要方向包括目標檢測、圖文檢索、影象分類與驗證等，在影象處理、計算機視覺等方面都有深厚的積累和經驗。

高傑，畢業於揚州中學特招班，1998年入學華中科技大學機械系，兼修管理、會計，自學計算機，2003年考入南京大學軟體學院，曾任德國西門子內部SAP諮詢師，還在中銀國際TMT投行、金山軟體集團投資部任過職，2015年與合夥人聯合創立了圖靈科技集團。

三、《Keras快速上手：基於Python的深度學習實戰》

《Keras快速上手：基於Python的深度學習實戰》從如何準備深度學習的環境開始，手把手地教讀者如何採集資料，如何運用一些最常用，也是目前被認為最有效的一些深度學習演算法來解決實際問題。覆蓋的領域包括推薦系統、影象識別、自然語言情感分析、文字生成、時間序列、智慧物聯網等。

本書以實際應用為導向，強調概念的認知和實用性，對理論的介紹深入淺出，對讀者的數學水平要求較低，讀者在學習完畢後能使用案例程式舉一反三地應用到其具體場景中。

從內容方面本書共分為10個章節：

第1章：介紹搭建深度學習環境，是整本書的基礎。

第2章：介紹如何用網路爬蟲技術收集資料並使用ElasticSearch 儲存資料。因為在很多應用中，資料需要讀者自行從網上爬取和並加以處理和儲存。

第3章：介紹深度學習模型的基本概念。

第4章：介紹深度學習框架 Keras 的用法。

第 5~9 章：是5個深度學習的經典應用。我們會依次介紹深度學習在推薦系統、影象識別、自然語言處理、文字生成和時間序列的具體應用。在介紹這些應用的過程中會穿插各種深度學習模型和程式碼，並和讀者分享我們對於這些模型的原理和應用場景的體會。

第10章：拋磚引玉地提出物聯網概念。

作者介紹：

謝樑，現任微軟雲端計算核心儲存部門首席資料科學家，主持運用機器學習和人工智慧方法優化大規模高可用性並行儲存系統的執行效率和改進其運維方式。具有十餘年機器學習應用經驗。

魯穎，現任谷歌矽谷總部資料科學家，為谷歌應用商城提供核心資料決策分析，利用機器學習和深度學習技術建立使用者行為預測模型，為產品優化提供核心資料支援。曾在亞馬遜、微軟和迪士尼美國總部擔任機器學習研究科學家，有著多年使用機器學習和深度學習演算法研發為業務提供解決方案的經驗。

勞虹嵐，現任微軟研究院研究工程師，是早期智慧硬體專案上視覺和語音研發的核心團隊成員，對企業使用者和消費者需求體驗與AI技術的結合有深刻的理解和豐富的經驗。曾在Azure和Office 365負責處理大流量高併發的後臺雲端研究和開發，精通一系列系統架構設計和效能優化方面的解決方案。

四、《全棧資料之門》

《全棧資料之門》以資料分析領域最熱的Python語言為主要線索，介紹了資料分析庫numpy、Pandas與機器學習庫scikit-learn，使用了視覺化環境Orange 3來理解演算法的一些細節。對於機器學習，既有常用演算法kNN與Kmeans的應用，決策樹與隨機森林的實戰，還涉及常用特徵工程與深度學習中的自動程式設計器。在大資料Hadoop與Hive環境的基礎之上，使用Spark的ML/MLlib庫集成了前面的各部分內容，讓分散式機器學習更容易。大量的工具與技能實戰的介紹將各部分融合成一個全棧的資料科學內容。

本書從內容上共分為8個章節：

第1、2、3 章：內容比較單一，涉及基礎的Linux、Python 與Hadoop 知識。如果對這三章中的某些知識不熟悉，建議先閱讀。

第4章：本章比較特殊，其內容也是資料科學中比較重要的，不僅需要前3章的知識，也需要部分Spark的知識，因為Spark的特殊性，單獨放到機器學習之後了。

第5、6 章：涉及資料科學中最重要的主題：機器學習與演算法，介紹了機器學習的常用環境、概念、方法以及幾個典型的演算法應用。這兩章是本書的難點，如果不熟悉，必須單獨攻克。

第7章：Spark 本身就是一個全棧框架，無論是在分散式計算還是在機器學習領域，都大有用處。因此最好有前面章節的基礎知識，方能更好地理解本章的內容，尤其是MLlib/ML 庫，必須有機器學習演算法的知識。

最後一章：第8章反而是最簡單的，因為基本不涉及技術細節，但對整個資料科學的理解，以及技術積累都是非常重要的。

作者介紹：

任柳江，一直工作在資料處理與資料探勘的第一線，具有豐富的理論知識和實踐經驗，且精通多種資料探勘與分析的工具的使用。

五、《Druid實時大資料分析原理與實踐》

注：Druid是一個支援在大型資料集上進行實時查詢而設計的開源資料分析和儲存系統，提供了低成本、高效能、高可靠性的解決方案，整個系統支援水平擴充套件，管理方便。

《Druid實時大資料分析原理與實踐》就是旨在幫助技術人員更好地深入理解Druid 技術、大資料分析技術選型、Druid 的安裝和使用、高階特性的使用，也包括一些原始碼的解析，以及一些常見問題的快速回答。

本書從內容上共分為11個章節：

第1章：介紹Druid的初級概念；

第2章：對行業中不同的資料分析軟體進行介紹和對比，包括一些時序資料庫；

第3章：Druid的設計理念和架構介紹；

第4章：Druid的安裝和配置；

第5章：Druid的資料攝入；

第6章：查詢詳解；

第7章：介紹Druid的一些高階特性，包括正在積極完善的一些功能；

第8章;核心程式碼的導讀和分析；

第9章：叢集管理中的安全和監控；

第10章：介紹幾個公司的Druid最佳實踐；

第11章：Druid的生態介紹和展望；

附錄A：簡要回答了一些常見的問題；

附錄B：列出了各個服務模組的引數含義和建議值，方便系統管理。

作者介紹：

歐陽辰，小米商業產品部研發總監，負責廣告架構和資料分析平臺，擅長資料探勘，大資料分析和廣告搜尋架構。

劉麒贇，現任Testin雲測公司技術總監，全面負責領導團隊完成資料分析產品的研發。作為資深資料技術專家，曾為多個著名開源專案（Hadoop／Sqoop／Oozie／Druid）貢獻原始碼，在網際網路大資料分析、機器學習和統計學應用等方面擁有豐富的實戰經驗和相關專利。

張海雷，資深工程師。目前在優酷土豆廣告技術團隊負責Druid叢集的維護。活躍在Druid中國使用者組，Druid、Redis和Storm的開源專案程式碼貢獻者。

高振源，熱愛技術，愛智求真的後臺開發和資料工程師。先後負責過廣告DSP產品、QQ公眾號精準投放平臺、資料分析產品等研發工作。目前在騰訊SNG企業產品部，負責企點產品的資料平臺工作。

許哲，騰訊後臺開發高階工程師，先後參與了公司企業產品訊息服務後臺、QQ公眾號後臺、QQ公眾號精準投放平臺等研發，目前在騰訊SNG企業產品部，負責騰訊企點的後臺和資料平臺開發工作。

六、《大資料時代小資料分析》

《大資料時代小資料分析》不僅介紹Excel而且介紹使用其他工具軟體進行資料分析，可用來拓展網際網路公司、傳統企業、電商企業、管理諮詢公司等各行各業從事資料分析工作的分析師和管理者對資料分析的認知，也適合初中級資料分析師或者想進入資料分析行業的有志之士參考閱讀。

本書從內容上共分為5個章節：

第1章：知己知彼，百戰不殆——風險與預測分析

第2章：運籌帷幄，決勝千里——效益最大化

第3章：圖個明白，精彩展現——JMP精彩圖表

第4章：抽絲剝繭，明察秋毫——相關分析

第5章：要裡子，也要面子——資料展現的藝術

作者簡介：

屈澤中，化工專業，資料分析愛好者，愛好使用工具探索資料背後的祕密，略懂Excel、LINGO、Crystal Ball、JMP、Minitab、Xcelsius，工作十餘年，一直從事將資料分析與各類業務相結合的研究和學習。

七、《深度學習入門與實踐》

深度學習就是人工智慧的一個重要實現方法，在語音識別、影象識別、自然語言處理和搜尋廣告預估等領域都取得了驚人的成果，連聲名顯赫的AlphaGo都是以他為基礎的。

《深度學習入門與實踐》的作者以通俗易懂的語言和生動的比喻介紹了迴歸、人工神經網路等人工智慧基本概念。並將TensorFlow比喻成神鵰大俠楊過手中的玄鐵重劍，將Caffe的基礎CNN比喻成令狐少俠的獨孤九劍，讀來毫無違和感。

從內容方面該書共分為六個章節：

第一章：通俗的講解深度學習的常用概念及概念之間的關係，如迴歸、分類、聚類；監督學習、非監督學習、強化學習；感知機、神經網路等。隨後介紹了深度學習的發展歷程及前輩學者們對深度學習領域所做出的貢獻。最後列出了深度學習及相關領域的著名國際會議、期刊、賽事和學術團隊，以方便讀者獲取學習資料和進行學術研究。

第二章：介紹了深度學習的原理、線性迴歸、邏輯迴歸的概念。以生物學家Galton所研究的父子身高問題為例介紹了線性迴歸的基本原理，講述了線性迴歸的兩種求解方法：梯度下降法和正規方程法，並用R、MATLAB和Python三種工具求解了父子身高問題。隨後以學生考試問題為例介紹了邏輯迴歸的基本原理，給出了邏輯迴歸問題求解的過程，並用R、MATLAB和Python三種工具解決了學生考試問題，並賦原始碼及解釋。

第三章：介紹了感知機和人工神經網路的工作流程。闡述了神經網路的基本單元Rosenblatt感知機的工作原理和訓練方法，並以一個二維空間中線性可分的點集為例驗證了感知機的訓練方法。隨後簡要介紹了人工神經網路的由來、網路架構和訓練方法。最後用Pybrain實現了一個三層神經網路，藉助例項初步展現了人工神經網路的神奇功能。

第四章：詳細介紹了Caffe的基本架構和使用方法。闡述了Caffe架構中Blob、Layer、Net和Solver等幾個基本類的作用，並以一個車型識別為例使用Caffe完成專案開發。最後介紹了目標檢測的基本原理和幾個當前最流行的演算法：Faster R-CNN、YOLO和SSD等，並用開源的Caffe例項驗證了Faster R-CNN和SSD演算法的效能。

第五章：介紹了TensorFlow的工作原理和使用方法。闡述了TensorFlow架構中圖、張量、運算和會話等概念和用法，使用TensorFlow實現父子身高問題的線性迴歸例項。

第六章：闡述了AlphaGo、強化學習、策略網路、強化學習策略網路和估值網路工作原理。以一個九宮棋為例講述了強化學習的基本演算法：Q學習演算法。隨後介紹了AlphaGo的架構，其賴以常勝不敗的監督學習策略網路、強化學習策略網路和估值網路等元件的工作原理。最後介紹了深度學習的一個有趣應用：畫風遷移，以饗讀者。

作者介紹：

龍飛，高階工程師，本科畢業於南京大學，博士畢業於清華大學，香港科技大學博士後。曾供職於中國電子科技集團公司第五十四研究所。現任中國搜尋創新研發部總監。負責公司網際網路創新產品和人工智慧、大資料相關專案的研發。主持並參與了國搜識圖、國搜學術、國搜圖書等平臺和頻道的研發與上線。主要研究方向為網路路由、無線網狀網路，近年涉足深度學習、資料探勘領域。

part 2 ：行業篇

一、《人之彼岸》

郝景芳繼《北京摺疊》後全新科幻作品——《人之彼岸》。該書首度從文學跨度到科普。書裡不僅包括最新創作的六篇中短篇小說，還包括兩篇解讀人工智慧的文章。故事圍繞人與人工智慧的糾葛展開，其設定的場景既包括離我們很近的人工智慧產品，也包括預設的地球被萬神殿操控的巨集大場面。

郝景芳構思的六個科幻故事，它們的主角無疑都是人與AI。人與AI隔岸而望，作為理性的AI，是否一定能把人類非理性的一套心理表徵學個差不多？在物理環境變成了智慧產品的天下之後，人又該如何自處？六篇科幻故事之後，郝景芳用兩篇非科幻思考回答了我們關於AI的所有困惑。

人工智慧會不會毀滅人類，以及人工智慧會取代多少人的就業，實際上是有關人工智慧討論的最熱話題。郝景芳認為，人工智慧會變得非常強大，但並不意味著它們會毀滅人類。它們的威脅性其實和原子彈一樣：能毀滅所有人，但按鈕掌握在人類手裡。

作者介紹：

郝景芳，1984年生，小說作家，經濟研究員。2002年進入清華大學物理系學習，2013年獲得清華經濟學博士學位。2016年8月，在第74屆世界科幻大會上，憑藉短篇小說《北京摺疊》斬獲雨果獎最佳中短篇小說獎。曾出版長篇小說《流浪蒼穹》《生於一九八四》，短篇小說集《去遠方》《孤獨深處》，文化散文集《時光裡的歐洲》。創立兒童通識教育專案“童行計劃”。

二、《黑箱社會：控制金錢和資訊的資料法則》

隱祕的演算法可以塑造（或破壞）信譽，也可以決定企業家的命運，甚至是摧毀整個經濟體。這本書深入探討了Google、亞馬遜、Facebook、蘋果等矽谷和華爾街的公司是如何運用這些運演算法則的，以及作為我們個人應該如何在這個資訊經濟社會保護我們的隱私，以及確保我們的個人資訊保安。

這本書最可取之處，是脫離了以往那些空談隱私保護的話題，而是時不時給出了問題的癥結和可能的解決方案。早期的隱私專家只是強調資訊威力的力量失衡對社會造成的後果，那些所謂的經典補救措施也就是要求個人知情同意。問題是，只要告訴如何使用這些資料，只要他們同意，隱私就得到了維護嗎？作者認為這遠遠不夠。

對待資訊的角力，作者在書中強調了三個關鍵詞：信譽、搜尋和金融。信譽是被他人認識的結果，搜尋為了認識他人，金融則是幫助人們做出經濟決策。

作者介紹：

弗蘭克•帕斯奎爾，馬里蘭大學教授，耶魯大學法學院資訊社會專案成員以及大資料、道德和社會理事會的成員。他是普林斯頓大學資訊科技中心的訪問研究員，並在耶魯大學法學院和卡多佐法學院擔任客座教授。他還曾在牛津大學獲得馬歇爾學者的稱號。帕斯誇萊曾在眾議院的司法委員會上作證，並與Google、微軟和雅虎的法律總顧問對峙。

三、《赤裸裸的未來》

《赤裸裸的未來》主題聚焦於未知與未來，但論述絕非建立在想象之上的空中樓閣，其間穿插著大量事例，或基於客觀現實，或依據科學推測，生動有趣。塔克爾通過大量的訪談和調查，約見各領域的權威人士，積累了極為豐富的素材，提取了他們有關現實的觀點和對未來的預期，為我們展開了有關未來社會各領域的翔實可信的圖景，講述的雖是前沿科技主題，內容卻平實親和。

就個人而言，我們生活在一個“超級透明”的世界，我們洩露出去的海量資訊無處不在。若將這些資訊收集起來，加以分析，就能勾勒出每一個人的真實性格、內心偏好，乃至可以預測每個人的命運。

就時代而言，作者大膽預言：“大資料時代”只不過是一朵小浪花，終將會被更新、更前沿的“物聯網時代”取代，並以災難預測、流行病預防、犯罪防治、潛能開發、情緒管理、戀愛情感、個性化學習、娛樂私人定製等領域為例，描繪了一個富有激情的美好未來。

作者介紹：

帕特里克·塔克爾（Patrick Tucker），美國《未來主義者》（The Futurist）雜誌副主編，世界未來主義大會（World Future Society）負責人，世界著名未來學學者、小說家，曾獲“巴里·漢納短篇小說獎”和“尤金·沃爾特小說獎”。

更多“大資料24小時”，可加作者Abby微信：wmh4178（請註明姓名、公司）交流

金猿榜往期的獲獎名單，將會在峰會現場隆重發布，期待我們的見面?

2017年十本必讀的大資料&人工智慧領域書籍，你都讀過嗎？

2017年十本必讀的大資料&人工智慧領域書籍，你都讀過嗎？

5本必讀Python入門書籍，你都看過嗎？（附福利）

大資料開發學習路線圖，你都學會了嗎？

必讀的Python入門書籍，你都看過嗎？（內有福利）

2018 年最受歡迎的 Python 庫，你都用過嗎？

2017年極客學院大資料工程師全套視訊程式碼課件

2017 年首份中美資料科學對比報告，美國資料工作者年薪中位數高達 11 萬美金...

2017年最全的30個Android面試題，你將如何回答？

月薪30-50K的大資料開發工程師們，原來都是這樣想想的！！！

資料分析入門書籍，你看過幾本

九大資料視覺化利器，你有足球競猜平臺原始碼下載在使用嗎？

在機器學習、大資料等領域工作，該學Hadoop還是Spark？

2018 年最受歡迎的電影，你都看過哪些？爬貓眼電影

Python花式錯誤集錦（大集合），這些你都見過嗎？

FGB揭祕洗臉大誤區，你被坑過嗎？

面試中經常問到的Redis七種資料型別，你都真正瞭解嗎？

Gartner最新發布:2017年十大戰略技術趨勢

2017年科技界十大新聞，你都知道嗎？

2017年十大網路營銷成功案例盤點

2017年十大Web黑客技術榜單

2017年十本必讀的大資料&人工智慧領域書籍，你都讀過嗎？

相關推薦