大數據平臺學習-1

阿新 • • 發佈：2017-06-09

div hadoop nutch 基本映射數據分布數據 ast 計算引擎

數據平臺架構圖

技術分享

HDFS：Hadoop分布式文件系統(HDFS)被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統。它和現有的分布式文件系統有很多共同點。但同時，它和其他的分布式文件系統的區別也是很明顯的。HDFS是一個高度容錯性的系統，適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問，非常適合大規模數據集上的應用。HDFS放寬了一部分POSIX約束，來實現流式讀取文件系統數據的目的。HDFS在最開始是作為Apache Nutch搜索引擎項目的基礎架構而開發的。HDFS是Apache Hadoop Core項目的一部分。

HIVE：hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合數據倉庫的統計分析。

MapReduce：是面向大數據並行處理的計算模型、框架和平臺，它隱含了以下三層含義： 1）MapReduce是一個基於集群的高性能並行計算平臺（Cluster Infrastructure）。它允許用市場上普通的商用服務器構成一個包含數十、數百至數千個節點的分布和並行計算集群。 2）MapReduce是一個並行計算與運行軟件框架（Software Framework）。它提供了一個龐大但設計精良的並行計算軟件框架，能自動完成計算任務的並行化處理，自動劃分計算數據和計算任務，在集群節點上自動分配和執行任務以及收集計算結果，將數據分布存儲、數據通信、容錯處理等並行計算涉及到的很多系統底層的復雜細節交由系統負責處理，大大減少了軟件開發人員的負擔。

3）MapReduce是一個並行程序設計模型與方法（Programming Model & Methodology）。它借助於函數式程序設計語言Lisp的設計思想，提供了一種簡便的並行程序設計方法，用Map和Reduce兩個函數編程實現基本的並行計算任務，提供了抽象的操作和並行編程接口，以簡單方便地完成大規模數據的編程和計算處理

Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架，Spark，擁有Hadoop MapReduce所具有的優點；但不同於MapReduce的是Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用於數據挖掘與機器學習等需要叠代的MapReduce的算法。

大數據平臺學習-1

div hadoop nutch 基本映射數據分布數據 ast 計算引擎數據平臺架構圖 HDFS：Hadoop分布式文件系統(HDFS)被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統。它和現有的分布式文件系統有很多共同點。但同

大數據平臺學習-1

大數據平臺學習-1

大數據Hadoop學習之搭建Hadoop平臺（2.1）

NLPIR語義智能平臺支持大數據個性化學習

大數據平臺搭建 - cdh5.11.1 - oozie安裝

大數據平臺1.0總結和2.0演化路線

spark快速大數據分析學習筆記（1）

大數據課程1 大數據平臺與系統集成

1.1大數據平臺架構

[大數據]-Elasticsearch5.3.1+Kibana5.3.1從單機到分布式的安裝與使用<2>

從0到1構建大數據生態系列1：數據蠻荒中的拓荒之舉

大數據經典學習路線（及供參考）

大數據平臺一鍵安裝OS【定制化OS鏡像制作】

電商大數據平臺運維案例

大數據平臺常用命令

開發人員學Linux(14)：CentOS7安裝配置大數據平臺Hadoop2.9.0

大數據哪個學習機構好？老男孩大數據周末班

案例分析:大數據平臺技術方案及案例(ppt)

大數據平臺cdh5.3.x 的安裝配置

大數據平臺 CDH5.12.2 安裝部署

大數據平臺粗略架構和數倉設計步驟

大數據平臺學習-1

相關推薦