1. 程式人生 > >新手如何進入大資料領域,學習路線是什麼?

新手如何進入大資料領域,學習路線是什麼?


大資料不是某個專業或一門程式語言,實際上它是一系列技術的組合運用。

有人通過下方的等式給出了大資料的定義。

大資料 = 程式設計技巧 + 資料結構和演算法 + 分析能力 + 資料庫技能 + 數學 + 機器學習 + NLP + OS + 密碼學 + 並行程式設計

雖然這個等式看起來很長,需要學習的東西很多,但付出和彙報是成正比的,至少和薪資是成正比的。

既然要學的知識很多,那麼一個正確的學習順序就非常關鍵了。

小編為「大資料」制定了一條專業的學習路徑,希望幫助大家少走彎路。主要分為 7 個階段:入門知識 → Java 基礎 → Scala 基礎 → Hadoop 技術模組 → Hadoop 專案實戰 → Spark 技術模組 → 大資料專案實戰。

其中,階段一到階段五均為免費課程,具體說來:


本人對於大資料學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習大資料。歡迎各位到來大資料學習群:868847735 一起討論視訊分享學習。大資料是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握大資料核心技術,才是掌握真正的價值所在。

階段一:學習入門知識

這一部分主要針對的是新手,在學習之前需要先掌握基本的資料庫知識。MySQL 是一個 DBMS(資料庫管理系統),是最流行的

關係型資料庫管理系統(關係資料庫,是建立在關係資料庫模型基礎上的資料庫,藉助於集合代數等概念和方法來處理資料庫中的

資料)。MongoDB 是 IT 行業非常流行的一種非關係型資料庫(NoSQL),其靈活的資料儲存方式備受當前 IT 從業人員的青睞。

而 Redis 是一個開源、支援網路、基於記憶體、鍵值對儲存資料庫。兩者都非常有必要了解。

1.Linux 基礎入門(新版)

2.Vim編輯器

3.Git 實戰教程

4.MySQL 基礎課程

5.MongoDB 基礎教程

6.Redis基礎教程

 

階段二:Java基礎

Java 是目前使用最為廣泛的程式語言,它具有的眾多特性,特別適合作為大資料應用的開發語言。

Java 語言具有功能強大和簡單易用兩個特徵,跨平臺應用能力比 C、C++ 更易用,更容易上手。同時還具有簡單性、面向物件、分散式、健壯性、安全性、平臺獨立與可移植性、多執行緒、動態性等特點。最重要的一點是 Hadoop 是用 Java 編寫的。

1.Java程式語言(新版)

2.Java進階之設計模式

3.J2SE核心開發實戰

4.JDK 核心 API

5.JDBC 入門教程

6.Java 8 新特性指南

 

階段三:Scala基礎

Scala 是一種多正規化的程式語言,其設計的初衷是要整合面向物件程式設計和函數語言程式設計的各種特性。由於 Scala 運行於 Java 平臺(Java 虛擬機器),併兼容現有的Java 程式,所以 Scala 可以和大資料相關的基於 JVM 的系統很好的整合。

1.Scala 開發教程

2.Scala 專題教程 - Case Class和模式匹配

3.Scala 專題教程 - 隱式變換和隱式引數

4.Scala 專題教程 - 抽象成員

5.Scala 專題教程 - Extractor

6.Scala 開發二十四點遊戲

階段四:Hadoop技術模組

Hadoop 是一款支援資料密集型分散式應用並以 Apache 2.0 許可協議釋出的開源軟體框架,它能搭建大型資料倉庫,PB 級別資料的儲存、處理、分析、統計等業務。程式語言你可以選,但 Hadoop 一定是大資料必學內容。

 

1.Hadoop入門進階課程

2.Hadoop部署及管理

3.HBASE 教程

4.Hadoop 分散式檔案系統--匯入和匯出資料

5.使用 Flume 收集資料

 

階段五:Hadoop專案實戰

當然,學完理論就要進行動手實戰了,Hadoop 專案實戰可以幫助加深對內容的理解,並鍛鍊動手能力。

 

1.Hadoop 圖處理--《hadoop應用框架》

 

階段六:Spark技術模組

Spark 和 Hadoop 都是大資料框架。Hadoop 提供了 Spark 所沒有的功能特性,比如分散式檔案系統,而 Spark 為需要它的那些資料集提供了實時記憶體處理。所以學習 Spark 也非常必要。

1.Spark

2.x 快速入門教程

2.Spark 大資料動手實驗

3.Spark 基礎之 GraphX 圖計算框架學習

4.Spark 基礎之 DataFrame 基本概念學習

5.Spark 基礎之 DataFrame 高階應用技巧

6.Spark 基礎之 Streaming 快速上手

7.Spark 基礎之 SQL 快速上手

8.Spark 基礎之使用機器學習庫 MLlib

9.Spark 基礎之 SparkR 快速上手

10.流式實時日誌分析系統--《Spark 最佳實踐》

11.使用 Spark 和 D3.js 分析航班大資料

階段七:大資料專案實戰

最後階段提供了大資料實戰專案,這是對常用技能的系統運用,例如使用常用的機器學習進行建模、分析和運算,這是成為大資料工程師過程中的重要一步。

1.Ebay 線上拍賣資料分析 

2.流式實時日誌分析系統--《Spark 最佳實踐》

3.大資料帶你挖掘打車的祕籍

4.Twitter資料情感分析

5.使用 Spark 進行流量日誌分析

6.Spark流式計算電商商品關注度

7.Spark的模式挖掘-FPGrowth演算法

 


本人對於大資料學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習大資料。歡迎各位到來大資料學習群:8688++47735 一起討論視訊分享學習。大資料是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握大資料核心技術,才是掌握真正的價值所在。
 

希望以上內容對大家有用,也祝小夥伴們成為一名優秀的大資料工程師。