1. 程式人生 > >如何系統規劃大資料學習之路

如何系統規劃大資料學習之路

大資料的領域非常廣泛,往往使想要開始學習大資料及相關技術的人望而生畏。大資料技術的種類眾多,這同樣使得初學者難以選擇從何處下手。

本文將為你開始學習大資料的征程以及在大資料產業領域找到工作指明道路,提供幫助。目前我們面臨的最大挑戰就是根據我們的興趣和技能選定正確的角色。

為了解決這個問題,我在本文詳細闡述了每個與大資料有關的角色,同時考量了工程師以及電腦科學畢業生的不同職位角色。

1.如何開始?

人們想開始學習大資料的時候,最常問我的問題是,我應該學Hadoophadoop是一款開源軟體,主要用於分散式儲存和計算,他由HDFSMapReduce計算框架組成的,他們分別是

GoogleGFSMapReduce的開源實現。由於hadoop的易用性和可擴充套件性,因此成為最近流行的海量資料處理框架。hadoop這個單詞來源於其發明者的兒子為一個玩具大象起的名字。), 分散式計算,KafkaKafka是由LinkedIn開發的一個分散式基於釋出/訂閱的訊息系統),NoSQL(泛指非關係型的資料庫)還是SparkSpark 是一種與 Hadoop 相似的開源叢集計算環境,但是兩者之間還存在一些不同之處)?

而我通常只有一個答案:這取決於你究竟想做什麼。

 因此,讓我們用一種有條理的方式來解決這個問題。我們將一步步地探索這條學習之路。

2.

在大資料行業有哪些職業需求?

在大資料行業中有很多領域。通常來說它們可以被分為兩類:

  • 大資料工程
  • 大資料分析

這些領域互相獨立又互相關聯。

大資料工程涉及大量資料的設計,部署,獲取以及維護(儲存)。大資料工程師需要去設計和部署這樣一個系統,使相關資料能面向不同的消費者及內部應用。

而大資料分析的工作則是利用大資料工程師設計的系統所提供的大量資料。大資料分析包括趨勢、圖樣分析以及開發不同的分類、預測預報系統。

因此,簡而言之,大資料分析是對資料的高階計算。而大資料工程則是進行系統設計、部署以及計算執行平臺的頂層構建。

3.你的領域是什麼,適合什麼方向?

現在我們已經瞭解了行業中可供選擇的職業種類,讓我們想辦法來確定哪個領域適合你。這樣,我們才能確定你在這個行業中的位置。

通常來說,基於你的教育背景和行業經驗我們可以進行如下分類:

  • 教育背景

(包括興趣,而不一定與你的大學教育有關)

  1. 電腦科學
  2. 數學 
  • 行業經驗
  • 新人
  • 資料學家
  • 計算機工程師(在資料相關領域工作)

因此,通過上面的分類,你可以把自己的領域定位如下:

1我是一名電腦科學畢業生,不過沒有堅實的數學技巧。

你對電腦科學或者數學有興趣,但是之前沒有相關經驗,你將被定義為一個新人。

2我是一個電腦科學畢業生,目前正從事資料庫開發工作。

你的興趣在電腦科學方向,你適合計算機工程師(資料相關工程)的角色。

3我正作為資料科學家從事統計工作。

你對數學領域有興趣,適合資料科學家的職業角色。

因此,參照著定位你的領域吧。

(此處定義的領域對你確定在大資料行業的學習路徑至關重要。)

4.根據領域規劃你的角色

現在你已經確定了你的領域,下一步,讓我們規劃出你要努力的目標職位吧。

如果你有卓越的程式設計技巧並理解計算機如何在網路(基礎)上運作,而你對數學和統計學毫無興趣,在這種情況下,你應該朝著大資料工程職位努力。

如果你擅長程式設計同時有數學或者統計學的教育背景或興趣,你應該朝著大資料分析師職位努力。