1. 程式人生 > 實用技巧 >機器學習、資料科學、人工智慧、深度學習和統計學之間的區別!

機器學習、資料科學、人工智慧、深度學習和統計學之間的區別!

來源:機器之心

本文約3000字,建議閱讀5分鐘

在本文中,資料科學家與分析師 Vincent Granville 明晰了資料科學家所具有的不同角色,以及資料科學與機器學習、深度學習、人工智慧、統計學、物聯網、運籌學和應用數學等相關領域的比較和重疊。


在本文中,資料科學家與分析師 Vincent Granville 明晰了資料科學家所具有的不同角色,以及資料科學與機器學習、深度學習、人工智慧、統計學、物聯網、運籌學和應用數學等相關領域的比較和重疊。

1. 資料科學傢俱有哪些不同型別?

要更詳細地瞭解資料科學家的型別,可參閱文章:

  • http://suo.im/28rlX1

  • http://suo.im/3NNUpd

更多有用的資訊可參閱:

  • 資料科學家與資料架構師:

    http://suo.im/4bRkRG

  • 資料科學家與資料工程師:

    http://suo.im/3mpo6E

  • 資料科學家與統計學家:

    http://suo.im/2GGtfG

  • 資料科學家與業務分析師:

    http://suo.im/3h0hkX

而在最近,資料科學家 Ajit Jaokar 則又討論了 A 型資料科學家(分析師)和 B 型資料科學家(建造者)之間的區別:

A 型資料科學家能夠很好地編寫操作資料的程式碼,但並不一定是一個專家。A 型資料科學家可能是一個實驗設計、預測、建模、統計推理或統計學方面的事情的專家。然而總體而言,一個數據科學家的工作產品並不是「P 值和置信區間」——就像學術界的統計學有時候建議的那樣(而且這常常是為傳統的製藥等等行業工作的)。在谷歌,A 型資料科學家被稱為統計學家、定量分析師、決策支援工程開發分析師,也有一些被稱為資料科學家。

B 型資料科學家:這裡的 B 是指 Building。B 型資料科學家和 A 型資料科學傢俱有相同的背景,但他們還是很強的程式設計師、甚至經驗豐富的軟體工程師。B 型資料科學家主要關注在生產環境中使用資料。他們構建能與使用者進行互動的模型,通常是提供推薦(產品、可能認識的人、廣告、電影、搜尋結果等)。

而對於業務處理優化,我也有自己的看法,我將其分成了 ABCD 四個方向,其中 A 表示分析科學(analytics science),B 表示業務科學(business science),C 表示電腦科學(computer science),D 則表示資料科學(data science)。資料科學可能會涉及到程式設計或數學實踐,但也可能不會涉及到。你可以參考 http://suo.im/11bR7o 這篇文章瞭解高階和低端的資料科學的差異。在一家創業公司,資料科學家通常要做很多型別的工作,其扮演的工作角色可能包括:執行、資料探勘師、資料工程師或架構師、研究員、統計學家、建模師(做預測建模等等)和開發人員。

雖然資料科學家常常被看作是經驗豐富的 R、Python、SQL、Hadoop 程式設計師,而且精通統計學,但這不只不過是冰山一角而已——人們對於資料科學家的這些看法不過是來自於重在教授資料科學的部分元素的資料培訓專案而已。但正如一位實驗室技術人員也可以稱自己為物理學家一樣,真正的物理學家遠不止於此,而且他們的專業領域也是非常多樣化的:天文學、數學物理、核物理、力學、電氣工程、訊號處理(這也是資料科學的一個領域)等等許多。資料科學也是一樣,包含的領域有:生物資訊學、資訊科技、模擬和量化控制、計算金融、流行病學、工業工程、甚至數論。

對我而言,在過去的十年裡,我專注於機器到機器和裝置到裝置的通訊、開發能自動處理大型資料集的系統、執行自動化交易(比如購買網路流量或自動生成內容)。這意味著需要開發能夠處理非結構化資料的演算法,這也是人工智慧、物聯網和資料科學的交叉領域,也可被稱為深度資料科學(deep data science)。其對數學的需求相對較少,也只涉及到較少的程式設計(大部分是呼叫 API),但其卻是相當資料密集型的(包括構建資料系統),並且基於專門為此背景而設計的全新統計技術。

在此之前,我的工作是實時的信用卡欺詐檢測。在我事業的早期階段(大約 1990 年),我開發過影象遠端感知技術,其中包括識別衛星影象的模式(形狀和特徵,比如湖泊)和執行影象分割:那段時間我的研究工作被稱為是計算統計學,但在我的母校,隔壁的計算機科學系也在做著幾乎完全一樣的事情,但他們把自己的工作叫做是人工智慧。

今天,這項工作被稱作資料科學或人工智慧,其子領域包括訊號處理、用於物聯網的計算機視覺等。

另外,資料科學家也可以在各種各樣的資料科學專案中出現,比如資料收集階段或資料探索階段一直到統計建模和已有系統維護。

2. 機器學習 vs 深度學習

在深入探討資料學習與機器學習之間的區別前,我們先簡單討論下機器學習與深度學習的區別。機器學習一系列在資料集上進行訓練的演算法,來做出預測或採取形同從而對系統進行優化。例如,基於歷史資料,監督分類演算法就被用來分類潛在的客戶或貸款意向。根據給定任務的不同(例如,監督式聚類),用到的技術也不同:樸素貝葉斯、支援向量機、神經網路、ensembles、關聯規則、決策樹、邏輯迴歸或多種方法之間的結合。

這些都是資料科學的分支。當這些演算法被用於自動化的時候,就像在自動飛行或無人駕駛汽車中,它被稱為人工智慧,更具體的細說,就是深度學習。如果資料收集自感測器,通過網際網路進行傳輸,那就是機器學習或資料科學或深度學習應用到了 IoT 上。

有些人對深度學習有不同的定義。他們認為深度學習是帶有更多層的神經網路(神經網路是一種機器學習技術)。深度學習與機器學習的區別這一問題在 Quora 上也被問到過,下面對此有詳細的解釋:

  • 人工智慧是電腦科學的一個子領域,創造於 20 世紀 60 年代,它涉及到解決對人類而言簡單卻對計算機很難的任務。詳細來說,所謂的強人工智慧系統應該是能做人類所能做的任何事。這是相當通用的,包含所有的任務,比如規劃、到處移動、識別物體與聲音、說話、翻譯、完成社會或商業事務、創造性的工作(繪畫、作詩)等。

  • 自然語言處理只是人工智慧與語言有關的一部分。

  • 機器學習被認為是人工智慧的一方面:給定一些可用離散術語(例如,在一些行為中,那個行為是正確的)描述的人工智慧問題,並給出關於這個世界的大量資訊,在沒有程式設計師進行程式設計的情況下弄清楚「正確」的行為。典型的是,需要一些外部流程判斷行為是否正確。在數學術語中,也就是函式:饋入輸入,產生正確的輸出。所以整個問題就是以自動化的方式建立該數學函式的模型。在二者進行區分時:如果我寫出的程式聰明到表現出人類行為,它就是人工智慧。但如果它的引數不是自動從資料進行學習,它就不是機器學習。

  • 深度學習是如今非常流行的一種機器學習。它涉及到一種特殊型別的數學模型,可認為它是特定型別的簡單模組的結合(函式結合),這些模組可被調整從而更好的預測最終輸出。

3.機器學習 vs 統計學

《Machine Learning Vs. Statistics》這篇文章試圖解答這個問題。這篇文章的作者認為統計學是帶有置信區間(confidence intervals)的機器學習,是為了預測或估計數量。

4. 資料科學 vs 機器學習

機器學習和統計學都是資料科學的一部分。機器學習中的學習一詞表示演算法依賴於一些資料(被用作訓練集),來調整模型或演算法的引數。這包含了許多的技術,比如迴歸、樸素貝葉斯或監督聚類。但不是所有的技術都適合機器學習。例如有一種統計和資料科學技術就不適合——無監督聚類,該技術是在沒有任何先驗知識或訓練集的情況下檢測 cluster 和 cluster 結構,從而幫助分類演算法。這種情況需要人來標記 cluster。一些技術是混合的,比如半監督分類。一些模式檢測或密度評估技術適合機器學習。

資料科學要比機器學習廣泛。資料科學中的資料可能並非來自機器或機器處理(調查資料可能就是手動收集,臨床試驗涉及到專業型別的小資料),就像我剛才所說的,它可能與「學習」沒有任何關係。但主要的區別在於資料科學覆蓋整個資料處理,並非只是演算法的或統計類分支。細說之,資料科學也包括:

  • 資料整合(data integration)

  • 分散式架構(distributed architecture)

  • 自動機器學習(automating machine learning)

  • 資料視覺化(data visualization)

  • dashboards 和 BI

  • 資料工程(data engineering)

  • 產品模式中的部署(deployment in production mode)

  • 自動的、資料驅動的決策(automated, data-driven decisions)

當然,在許多公司內資料科學家只專注這些流程中的一個。

原文連結:

http://www.datasciencecentral.com/profiles/blogs/difference-between-machine-learning-data-science-ai-deep-learning

編輯:文婧