1. 程式人生 > >大資料入門的知識體系,大資料學習路線

大資料入門的知識體系,大資料學習路線

     任何學習過程都需要一個科學合理的學習路線,才能夠有條不紊的完成我們的學習目標。大資料所需學習的內容紛繁複雜,難度較大,有一個合理的大資料學習路線圖幫忙理清思路就顯得尤為必要。

一、Java語言以java語言為基礎掌握面向物件程式設計思想所涉及的知識,以及該知識在面向物件程式設計思想中的應用,培養學生設計程式的能力。掌握程度:精通。

 二、資料結構與演算法掌握基於JAVA語言的底層資料結構和演算法原理,並且能夠自己動手寫出來關於集合的各種演算法和資料結構,並且瞭解這些資料結構處理的問題和優缺點。掌握程度:熟練。

 三、資料庫原理與MYSQL資料庫掌握關係型資料庫的原理,掌握結構化資料的特性。掌握關係型資料庫的正規化。通過MYSQL資料庫掌握通過SQL語言與MYSQL資料庫進行互動。熟練掌握各種複雜SQL語句的編寫。掌握程度:熟練。

四、LINUX作業系統全面瞭解LINUX。詳解LINUX下的管理命令、使用者管理、網路配置管理等。掌握SHELL指令碼程式設計,能夠根據具體業務進行復雜SHELL指令碼的編寫。掌握程度:精通。

 五、Hadoop技術學習Hadoop技術的兩個核心:分散式檔案系統HDFS和分散式計算框架MapReduce。掌握MR的執行過程及相關原理,精通各種業務的MR程式編寫。掌握Hadoop的核心原始碼及實現原理。掌握使用Hadoop進行海量資料的儲存、計算與處理。掌握程度:精通。 

六、分散式資料庫技術:精通分散式資料庫HBASE、掌握Mongodb及瞭解其它分散式資料庫技術。精通分散式資料庫原理、應用場景、HBASE資料庫的設計、操作等,能結合HIVE等工具進行海量資料的儲存於檢索。掌握程度:精通。 

七、資料倉庫HIVE精通基於hadoop的資料倉庫HIVE。精通HIVESQL的語法,精通使用HIVESQL進行資料操作。內部表、外部表及與傳統資料庫的區別,掌握HIVE的應用場景及Hive與HBase的結合使用。掌握程度:精通。

 八、PYTHON語言精通PYTHON語言基礎語法及面向物件。精通PYTHON語言的爬蟲、WEB、演算法等框架。並根據業務可以基於PYTHON語言開發完成的業務功能和系統。掌握程度:精通。

 九、機器學習演算法熟練掌握機器學習經典演算法,掌握演算法的原理,公式,演算法的應用場景。熟練掌握使用機器學習演算法進行相關資料的分析,保證分析結果的準確性。掌握程度:熟練。

 十、Spark高階程式設計技術掌握Spark的執行原理與架構,熟悉Spark的各種應用場景,掌握基於SparkRDD的各種運算元的使用;精通SparkStreaming針對流處理的底層原理,熟練應用SparkSql對各種資料來源處理,熟練掌握Spark機器學習演算法庫。達到能夠在掌握Spark的各種元件的基礎上,能夠構建出大型的離線或實時的業務專案。掌握程度:精通。

 十一、真實大資料專案實戰通過幾個真實的大資料專案把之前學習的知識與大資料技術框架貫穿,學習真實的大資料專案從資料採集、清洗、儲存、處理、分析的完整過程,掌握大資料專案開發的設計思想,資料處理技術手段,解決開發過程中遇到的問題和技術難點如何解決。