2.Hadoop演進與Hadoop生態

阿新 • • 發佈：2020-09-19

1.瞭解對比Hadoop不同版本的特性，可以用圖表的形式呈現。

Apache Hadoop：Apache Hadoop是一款支援資料密集型分散式應用並以Apache 2.0許可協議釋出的開源軟體框架。它支援在商品硬體構建的大型叢集上執行的應用程式。Hadoop是根據Google公司發表的MapReduce和Google檔案系統的論文自行製作而成。稱為社群版Hadoop。

第三方發行版Hadoop：Hadoop遵從Apache開源協議，使用者可以免費地任意使用和修改Hadoop，也正因此，市面上出現了很多Hadoop版本。其中有很多廠家在Apache Hadoop的基礎上開發自己的Hadoop產品，比如Cloudera的CDH，Hortonworks的HDP，大快的DKhadoop產品等。

Apache社群版本

優點：

完全開源免費。
社群活躍
文件、資料詳實

缺點：

複雜的版本管理。版本管理比較混亂的，各種版本層出不窮，讓很多使用者不知所措。
複雜的叢集部署、安裝、配置。通常按照叢集需要編寫大量的配置檔案，分發到每一臺節點上，容易出錯，效率低下。
複雜的叢集運維。對叢集的監控，運維，需要安裝第三方的其他軟體，如ganglia，nagois等，運維難度較大。
複雜的生態環境。在Hadoop生態圈中，元件的選擇、使用，比如Hive，Mahout，Sqoop，Flume，Spark，Oozie等等，需要大量考慮相容性的問題，版本是否相容，元件是否有衝突，編譯是否能通過等。經常會浪費大量的時間去編譯元件，解決版本衝突問題。

第三方發行版本（如CDH，HDP，MapR等）

優點：

基於Apache協議，100%開源。
版本管理清晰。比如Cloudera，CDH1，CDH2，CDH3，CDH4等，後面加上補丁版本，如CDH4.1.0 patch level 923.142，表示在原生態Apache Hadoop 0.20.2基礎上添加了1065個patch。
比Apache Hadoop在相容性、安全性、穩定性上有增強。第三方發行版通常都經過了大量的測試驗證，有眾多部署例項，大量的執行到各種生產環境。
版本更新快。通常情況，比如CDH每個季度會有一個update，每一年會有一個release。
基於穩定版本Apache Hadoop，並應用了最新Bug修復或Feature的patch
提供了部署、安裝、配置工具，大大提高了叢集部署的效率，可以在幾個小時內部署好叢集。
運維簡單。提供了管理、監控、診斷、配置修改的工具，管理配置方便，定位問題快速、準確，使運維工作簡單，有效。

缺點：

涉及到廠商鎖定的問題。（可以通過技術解決）

對比版選擇：DKhadoop發行版、cloudera發行版、hortonworks發行版。

1、DKhadoop發行版：有效的集成了整個HADOOP生態系統的全部元件，並深度優化，重新編譯為一個完整的更高效能的大資料通用計算平臺，實現了各部件的有機協調。因此DKH相比開源的大資料平臺，在計算效能上有了高達5倍(最大)的效能提升。DKhadoop將複雜的大資料叢集配置簡化至三種節點(主節點、管理節點、計算節點)，極大的簡化了叢集的管理運維，增強了叢集的高可用性、高可維護性、高穩定性。

2、Cloudera發行版：CDH是Cloudera的hadoop發行版，完全開源，比Apache hadoop在相容性，安全性，穩定性上有增強。

3、Hortonworks發行版：Hortonworks 的主打產品是Hortonworks Data Platform (HDP)，也同樣是100%開源的產品，其版本特點：HDP包括穩定版本的Apache Hadoop的所有關鍵元件;安裝方便，HDP包括一個現代化的，直觀的使用者介面的安裝和配置工具。

2.Hadoop生態的組成、每個元件的作用、元件之間的相互關係，以圖例加文字描述呈現。

Hadoop生態系統元件主要包括：MapReduce、HDFS、HBase、Hive、Pig、Zookeeper、Mahout

MapReduce（分散式計算）

主要由Google Reduce而來，它簡化了大型資料的處理，是一個並行的，分散式處理的程式設計模型。

hadoop2.0它是基於YARN框架構建的。YARN的全稱是Yet-Another-Resource-Negotiator。Yarn可以運用在S3|Spark等上。

HDFS（分散式檔案系統）

它是由Google File System而來，全稱是Hadoop Distributed File System，是Hadoop的分散式檔案系統，有許多機器組成的，可以儲存大型資料檔案。

它是由NameNode和DataNode組成，NameNode可以配置成HA(高可用)，避免單點故障。一般用Zookeeper來處理。兩個NameNode是同步的。

Hive（資料倉庫）

它是Hadoop的資料倉庫(DW),它可以用類似SQL的語言HSQL來操作資料，很是方便，主要用來聯機分析處理OLAP（On-Line Analytical Processing）,進行資料彙總|查詢|分析。

HBase（列式資料庫）

它是由Google BigTable而來。是Hadoop的資料庫。HBase底層還是利用的Hadoop的HDFS作為檔案儲存系統，可以利用Hadoop的MR來處理HBase的資料，它也通常用Zookeeper來做協同服務。

Zookeeper（協作）

Pig（資料流）

它提供一個引擎在Hadoop並行執行資料流。它包含了一般的資料操作如join|sort|filter等，它也是使用MR來處理資料。

Mahout（資料探勘）

它是機器學習庫。提供一些可擴充套件的機器學習領域經典演算法的實現，目的是幫助開發人員更加方便快捷地建立智慧應用程式。Mahout包含許多實現，包括聚類、分類、推薦演算法等。

元件名	功能及作用	優勢	侷限	應用場景	相關功能元件
HDFS	分散式檔案系統。儲存是大資料技術的基礎	（1）高吞吐量訪問；（2）高容錯性；（3）容量擴充	（1）不適合低延遲資料訪問；（2）不適合儲存大量小檔案；（3）不支援多使用者寫入及任意修改檔案（只能執行追加操作，寫操作只能在檔案末位完成）	可處理超大檔案，可運行於廉價的商用機器叢集。	hadoop檔案系統包含local（支援有客戶端校驗和的本地檔案系統）、har（構建在其他檔案系統上進行歸檔檔案的檔案系統，在hadoop主要被用來減少namenode的記憶體使用）、kfs（cloudstroe前身是Kosmos檔案系統，是類似於HDFS和Google的GFS的檔案系統）、ftp（由FTP伺服器支援的檔案系統）
Mapreduce	計算模型	（1）被多臺主機同事處理，速度快；（2）擅長處理少量大資料；（3）容錯性，節點故障導致失敗作業時，mapreduce計算框架會自動將作業安排到健康的節點	（1）不適合大量小資料；（2）過於底層化，程式設計複雜；（3）JobTracker單點瓶頸，JobTracker負責作業的分發、管理和排程，任務量多會造成其記憶體和網路頻寬的快速消耗，最終使其成為叢集的單點瓶頸；（4）Task分配容易不均；（5）作業延遲高（TaskTracker彙報資源和執行情況，JobTracker根據其彙報情況分配作業等過程）；（6）程式設計框架不夠靈活；（7）Map池和Reduce池區分降低了資源利用率；	日誌分析、海量資料排序、在海量資料中查詢特定模式等	可用hive簡化操作，完成簡單任務
Yarn	改善MapReduce的缺陷	（1）分散了JobTracker任務，提高了叢集的擴充套件性和可用性；（2）擴大了MapReduce程式設計人員範圍；（3）在資管管理器故障時，可快速重啟恢復狀態；（4）不再區分Map池和Reduce池，提高了資源利用率；
Hive	資料倉庫	（1）易操作；（2）能處理不變的大規模資料級上的批量任務；（3）可擴充套件性（可自動適應機器數目和資料量的動態變化）；（4）可延展性（結合mapreduce和使用者定義的函式庫）；（5）良好的容錯性；（6）低約束的資料輸入格式	（1）不提供資料排序和查詢功能；（2）不提供線上事務處理；（3）不提供實時查詢；（4）執行延遲
Hbase	資料倉庫	資料庫，儲存鬆散型資料。向下提供儲存，向上提供運算。	（1）海量儲存；（2）列式儲存；（3）極易擴充套件（基於RegionServer上層處理能力的擴充套件和基於HDFS儲存的擴充套件）；（4）高併發；（5）稀疏，列資料為空時，不會佔用儲存空間。	（1）對多表關聯查詢支援不足；（2）不支援sql，開發難度加大	查詢簡單、不涉及複雜關聯的場景，如海量流水資料、交易記錄、資料庫歷史資料
Pig	資料分析平臺，側重資料查詢和分析，而不是對資料進行修改和刪除等。需要把真正的查詢轉換成相應的MapReduce作業	（1）處理海量資料的速度快（2）相較mapreduce，使用Pig Latin編寫程式時，不需關心程式如何更好地在hadoop雲平臺上執行，因為這些都有pig系統自行分配。（3）在資管管理器故障時，可快速重啟恢復狀態；（4）不再區分Map池和Reduce池，提高了資源利用率；		處理系統內日誌檔案、處理大型資料庫檔案、處理特定web資料	可看做簡化mapreduce的高階語言
Zookeeper	協調服務	（1）高吞吐量（2）低延遲（3）高可靠（4）有序性，每一次更新操作都有一個全域性版本號		控制叢集中的資料，如管理hadoop叢集中的NameNode、Hbase中的Mster Election、Server見的狀態同步
Avro	基於二進位制資料傳輸高效能的中介軟體。資料序列化系統，可以將資料結構或物件轉化成便於儲存或傳輸的格式，以節約資料儲存空間和網路傳輸貸款。適用於遠端或本地大批量資料互動。	（1）模式和資料在一起，反序列化時寫入的模式和獨處的模式都是已知的；（2）多語言支援；（3）可有效減少大規模儲存較小的資料檔案的資料量；（4）豐富的資料結構型別			hadoop的RPC
Chukwa	資料收集系統，幫助hadoop使用者清晰瞭解系統執行的狀態，分析作業執行的狀態及HDFS的檔案儲存狀態				Scribe儲存在中央儲存系統（NFS）、Kafka、Flume。

3.官網學習Hadoop的安裝與使用，用文件的方式列出步驟與注意事項。
http://www.apache.org /

→Projects

→Projects List

→Hadoop

一、基礎環境

在Linux上安裝Hadoop之前，需要先安裝兩個程式：

1.1 安裝說明

1. JDK 1.6或更高版本（本文所提到的安裝的是jdk1.7）; 2. SSH(安全外殼協議)，推薦安裝OpenSSH。下面簡述一下安裝這兩個程式的原因： 1. Hadoop是用Java開發的，Hadoop的編譯及MapReduce的執行都需要使用JDK。 2. Hadoop需要通過SSH來啟動salve列表中各臺主機的守護程序，因此SSH也是必須安裝的，即使是安裝偽分散式版本(因為Hadoop並沒有區分叢集式和偽分散式)。對於偽分散式，Hadoop會採用與叢集相同的處理方式，即依次序啟動檔案conf/slaves中記載的主機上的程序，只不過偽分散式中salve為localhost(即為自身)，所以對於偽分散式Hadoop，SSH一樣是必須的。 1.1 JDK的安裝與配置 1、上傳壓縮包我這裡使用的是WinScp工具上傳jdk-7u76-linux-x64.tar.gz壓縮包 2、解壓壓縮包 tar -zxvfjdk-7u76-linux-x64.tar.gz 3、將解壓的目錄移動到/usr/local目錄下 mv /lutong/jdk1.7.0_76/ /usr/local/ 4、配置環境變數 vim /etc/profile 5、重新載入/etc/profile，使配置生效 source /etc/profile 6、檢視配置是否生效 echo $PATH java -version 出現如上資訊表示已經配置好了。

二、Host配置

由於我搭建Hadoop叢集包含三臺機器，所以需要修改調整各臺機器的hosts檔案配置，進入/etc/hosts，配置主機名和ip的對映，命令如下： vim /etc/hosts 如果沒有足夠的許可權，可以切換使用者為root。三臺機器的內容統一增加以下host配置：可以通過hostname來修改伺服器名稱為master、slave1、slave2 hostnamemaster

三、Hadoop的安裝與配置

3.1 建立檔案目錄

為了便於管理，給Master的hdfs的NameNode、DataNode及臨時檔案，在使用者目錄下建立目錄： /data/hdfs/name /data/hdfs/data /data/hdfs/tmp 然後將這些目錄通過scp命令拷貝到Slave1和Slave2的相同目錄下。

3.2 下載

首先到Apache官網（http://www.apache.org/dyn/closer.cgi/hadoop/common/）下載Hadoop，從中選擇推薦的下載映象（http://mirrors.hust.edu.cn/apache/hadoop/common/），我選擇hadoop-2.6.0的版本，並使用以下命令下載到Master機器的 /data目錄： wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz 然後使用以下命令將hadoop-2.7.1.tar.gz解壓縮到/data目錄 tar -zxvf hadoop-2.7.1.tar.gz

3.3 配置環境變數

回到/data目錄，配置hadoop環境變數，命令如下： vim /etc/profile 在/etc/profile新增如下內容立刻讓hadoop環境變數生效，執行如下命令： source /etc/profile 再使用hadoop命令，發現可以有提示了，則表示配置生效了。

3.4 Hadoop的配置

進入hadoop-2.7.1的配置目錄： cd /data/hadoop-2.7.1/etc/hadoop 依次修改core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml以及slaves檔案。 3.4.1 修改core-site.xml vim core-site.xml

 1 <?xml version="1.0" encoding="UTF-8"?>
 2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 3 <!--
 4   Licensed under the Apache License, Version 2.0 (the "License");
 5   you may not use this file except in compliance with the License.
 6   You may obtain a copy of the License at
 7 
 8     http://www.apache.org/licenses/LICENSE-2.0
 9   Unless required by applicable law or agreed to in writing, software
10   distributed under the License is distributed on an "AS IS" BASIS,
11   WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12   See the License for the specific language governing permissions and
13   limitations under the License. See accompanying LICENSE file.
14 -->
15 
16 <!-- Put site-specific property overrides in this file. -->
17 <configuration>
18 <property>
19   <name>hadoop.tmp.dir</name>
20   <value>file:/data/hdfs/tmp</value>
21   <description>A base for other temporary directories.</description>
22 </property>
23 <property>
24   <name>io.file.buffer.size</name>
25   <value>131072</value>
26 </property>
27 <property>
28   <name>fs.default.name</name>
29   <value>hdfs://master:9000</value>
30 </property>
31 <property>
32 <name>hadoop.proxyuser.root.hosts</name>
33 <value>*</value>
34 </property>
35 <property>
36 <name>hadoop.proxyuser.root.groups</name>
37 <value>*</value>
38 </property>
39 </configuration>

注意：hadoop.tmp.dir的value填寫對應前面建立的目錄 3.4.2 修改vim hdfs-site.xml vim hdfs-site.xml

 1 <?xml version="1.0" encoding="UTF-8"?>
 2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 3 <!--
 4   Licensed under the Apache License, Version 2.0 (the "License");
 5   you may not use this file except in compliance with the License.
 6   You may obtain a copy of the License at
 7 
 8     http://www.apache.org/licenses/LICENSE-2.0
 9 
10   Unless required by applicable law or agreed to in writing, software
11   distributed under the License is distributed on an "AS IS" BASIS,
12   WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13   See the License for the specific language governing permissions and
14   limitations under the License. See accompanying LICENSE file.
15 -->
16 
17 <!-- Put site-specific property overrides in this file. -->
18 
19 <configuration>
20 <property>
21 <name>dfs.replication</name>
22   <value>2</value>
23 </property>
24 <property>
25   <name>dfs.namenode.name.dir</name>
26   <value>file:/data/hdfs/name</value>
27   <final>true</final>
28 </property>
29 <property>
30   <name>dfs.datanode.data.dir</name>
31   <value>file:/data/hdfs/data</value>
32   <final>true</final>
33 </property>
34 <property>
35   <name>dfs.namenode.secondary.http-address</name>
36   <value>master:9001</value>
37 </property>
38 <property>
39   <name>dfs.webhdfs.enabled</name>
40   <value>true</value>
41 </property>
42 <property>
43   <name>dfs.permissions</name>
44   <value>false</value>
45 </property>
46 </configuration>

注意：dfs.namenode.name.dir和dfs.datanode.data.dir的value填寫對應前面建立的目錄

3.4.3 修改vim mapred-site.xml

複製template，生成xml，命令如下：

cp mapred-site.xml.template mapred-site.xml

vim mapred-site.xml

 1 <?xml version="1.0"?>
 2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 3 <!--
 4   Licensed under the Apache License, Version 2.0 (the "License");
 5   you may not use this file except in compliance with the License.
 6   You may obtain a copy of the License at
 7 
 8     http://www.apache.org/licenses/LICENSE-2.0
 9 
10   Unless required by applicable law or agreed to in writing, software
11   distributed under the License is distributed on an "AS IS" BASIS,
12   WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13   See the License for the specific language governing permissions and
14   limitations under the License. See accompanying LICENSE file.
15 -->
16 
17 <!-- Put site-specific property overrides in this file. -->
18 
19 <configuration>
20 
21 <property>
22   <name>mapreduce.framework.name</name>
23   <value>yarn</value>
24 </property>
25 
26 </configuration>

3.4.4 修改vimyarn-site.xml vim yarn-site.xml

 1 <?xml version="1.0"?>
 2 <!--
 3   Licensed under the Apache License, Version 2.0 (the "License");
 4   you may not use this file except in compliance with the License.
 5   You may obtain a copy of the License at
 6 
 7     http://www.apache.org/licenses/LICENSE-2.0
 8 
 9   Unless required by applicable law or agreed to in writing, software
10   distributed under the License is distributed on an "AS IS" BASIS,
11   WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12   See the License for the specific language governing permissions and
13   limitations under the License. See accompanying LICENSE file.
14 -->
15 <configuration>
16 
17 <!-- Site specific YARN configuration properties -->
18 <property>
19 <name>yarn.resourcemanager.address</name>
20   <value>master:18040</value>
21 </property>
22 <property>
23   <name>yarn.resourcemanager.scheduler.address</name>
24   <value>master:18030</value>
25 </property>
26 <property>
27   <name>yarn.resourcemanager.webapp.address</name>
28   <value>master:18088</value>
29 </property>
30 <property>
31   <name>yarn.resourcemanager.resource-tracker.address</name>
32   <value>master:18025</value>
33 </property>
34 <property>
35   <name>yarn.resourcemanager.admin.address</name>
36   <value>master:18141</value>
37 </property>
38 <property>
39   <name>yarn.nodemanager.aux-services</name>
40   <value>mapreduce.shuffle</value>
41 </property>
42 <property>
43   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
44   <value>org.apache.hadoop.mapred.ShuffleHandler</value>
45 </property>
46 </configuration>

由於我們已經配置了JAVA_HOME的環境變數，所以hadoop-env.sh與yarn-env.sh這兩個檔案不用修改，因為裡面的配置是： exportJAVA_HOME=${JAVA_HOME} 3.4.5 修改data/hadoop-2.7.1/etc/hadoop/slaves 將原來的localhost刪除，改成如下內容 vim/data/hadoop-2.7.1/etc/hadoop/slaves

最後，將整個hadoop-2.7.1資料夾及其子資料夾使用scp複製到slave1和slave2的相同目錄中：

scp-r /data/hadoop-2.7.1root@slave1:/data

scp-r /data/hadoop-2.7.1root@slave2:/data

四、執行Hadoop

4.1 格式化NameNode

執行命令： hadoopnamenode-format 執行過程如下圖：

最後的執行結果如下圖：

4.2 啟動NameNode

執行命令如下： /data/hadoop-2.7.1/sbin/hadoop-daemon.sh start namenode

在Master上執行jps命令，得到如下結果：

4.3 啟動DataNode

執行命令如下： /data/hadoop-2.7.1/sbin/hadoop-daemons.sh start datanode 執行結果如下：

master

slave1

slave2

說明Slave1和Slave2上的DataNode執行正常。以上啟動NameNode和DataNode的方式，可以用start-dfs.sh指令碼替代： /data/hadoop-2.7.1/sbin/start-all.sh

4.4 執行YARN

執行Yarn也有與執行HDFS類似的方式。啟動ResourceManager使用以下命令：以上方式我們就不贅述了，來看看使用start-yarn.sh的簡潔的啟動方式：在Master上執行jps：

說明ResourceManager執行正常。

在兩臺Slave上執行jps，也會看到NodeManager執行正常，如下圖：

4.5 檢視叢集是否啟動成功：

　　jps

　　Master顯示：

　　SecondaryNameNode

　　ResourceManager

　　NameNode

　　Slave顯示：

　　NodeManager

　　DataNode

五、測試hadoop

5.1 測試HDFS

最後測試下親手搭建的Hadoop叢集是否執行正常，測試的命令如下圖所示：

5.2 檢視叢集狀態

　　/data/hadoop-2.7.1/bin/hdfs dfsadmin -report

5.3 測試YARN

可以訪問YARN的管理介面，驗證YARN，如下圖所示：

5.4 測試mapreduce

不想編寫mapreduce程式碼。幸好Hadoop安裝包裡提供了現成的例子，在Hadoop的share/hadoop/mapreduce目錄下。執行例子：

5.5 測試檢視HDFS：

http://115.29.51.97:50070/dfshealth.html#tab-overview

六、配置執行Hadoop中遇見的問題

JAVA_HOME未設定

啟動的時候報:

則需要/data/hadoop-2.7.1/etc/hadoop/hadoop-env.sh，新增JAVA_HOME路徑

4.評估華為hadoop發行版本的特點與可用性。

一.特點

華為FusionInsight HD發行版緊隨開源社群的最新技術，快速整合最新元件，並在可靠性、安全性、管理性等方面做企業級的增強，持續改進，持續保持技術領先。

FusionInsight HD的企業級增強主要表現在以下幾個方面。

安全

架構安全
FusionInsight HD基於開源元件實現功能增強，保持100%的開放性，不使用私有架構和元件。
認證安全
- 基於使用者和角色的認證統一體系，遵從帳戶/角色RBAC（Role-Based Access Control）模型，實現通過角色進行許可權管理，對使用者進行批量授權管理。
- 支援安全協議Kerberos，FusionInsight HD使用LDAP作為帳戶管理系統，並通過Kerberos對帳戶資訊進行安全認證。
- 提供單點登入，統一了Manager系統使用者和元件使用者的管理及認證。
- 對登入FusionInsight Manager的使用者進行審計。
檔案系統層加密
Hive、HBase可以對錶、欄位加密，叢集內部使用者資訊禁止明文儲存。
- 加密靈活：加密演算法外掛化，可進行擴充，亦可自行開發。非敏感資料可不加密，不影響效能（加密約有5%效能開銷）。
- 業務透明：上層業務只需指定敏感資料（Hive表級、HBase列族級加密），加解密過程業務完全不感知。

可靠

所有管理節點元件均實現HA（High Availability）
業界第一個實現所有元件HA的產品，確保資料的可靠性、一致性。NameNode、Hive Server、HMaster、Resources Manager等管理節點均實現HA。
叢集異地災備
業界第一個支援超過1000公里異地容災的大資料平臺，為日誌詳單類儲存提供了迄今為止可靠性最佳實踐。
資料備份恢復
表級別全量備份、增量備份，資料恢復（對本地儲存的業務資料進行完整性校驗，在發現數據遭破壞或丟失時進行自恢復）。

易用

統一運維管理
Manager作為FusionInsight HD的運維管理系統，提供介面化的統一安裝、告警、監控和叢集管理。
易整合
提供北向介面，實現與企業現有網管系統整合；當前支援Syslog介面，介面訊息可通過配置適配現有系統；整個叢集採用統一的集中管理，未來北向介面可根據需求靈活擴充套件。
易開發
提供自動化的二次開發助手和開發樣例，幫助軟體開發人員快速上手。

二.可用性

金融領域

應用場景

金融領域典型應用場景如圖1所示。

圖1金融領域應用示意圖

場景特點

面對網際網路金融的競爭壓力，金融企業急需重構以大資料分析挖掘為基礎的決策和服務體系，提升自身競爭力和客戶滿意度。在大資料時代，銀行將從以交易為中心轉向以資料為中心，以應對更多維、更大量、更實時的資料和網際網路業務的挑戰。

華為FusionInsight HD可以從不同方面解決金融企業的問題，提升其競爭力。例如：

歷史交易明細實時查詢業務
實時查詢使用者的歷史交易明細，能夠將查詢範圍從1年提升到7年以上；能夠實現百TB級歷史資料表的毫秒級查詢。
實時徵信業務
使用者信用卡徵信時間由3天左右減少到10分鐘以內。
小微貸業務預測
TOP 1000小微貸傾向使用者預測準確率比傳統模式提高40倍以上。
精準營銷
- 極大縮短分散式網銀日誌的收集週期，基於網銀日誌的使用者行為統計與分析，提供精確營銷，極大提升了網銀使用者體驗效果。
- 只需不到原來20%的推薦簡訊，就可基本覆蓋原來全部的有效購買使用者，實現精準營銷。

運營商領域

應用場景

運營商領域的應用場景示意圖如圖2所示。

圖2運營商領域應用示意圖

場景特點

隨著大資料時代的到來，運營商面臨如下挑戰。

需要處理的資料數量、種類呈現爆炸式增長，尤其對於非結構化資料的處理，現有架構的分析速度十分緩慢。
現有應用系統以煙囪式建設，導致資料重複儲存，跨系統資料共享難度大，業務決策分析緩慢。

華為FusionInsight HD產品可以從不同方面解決運營商問題，提升其競爭力。例如：

構建統一的大資料詳單集中平臺和經營詳單資料分析平臺，從架構上根本解決運營商問題。
- 歷史話單查詢，客戶可實時查詢的歷史話單由3個月提升到6個月至24個月。
- 經營詳單資料併發分析，由原來的5天減少到1天。
構建統一的PB級大資料平臺，統一儲存業務資料。利用大資料平臺分散式計算能力，併發處理各種分析任務，快速獲取業務決策結果。
- 縮短新業務推出週期，由原來的1.5個月減少到1周。
- 存量使用者挽留，VIP使用者離網率大幅降低。
在保障資料安全性和隱私性前提下，提供資料共享訪問和開放介面，讓大資料對外提供共享服務，支撐業務創新與商業成功。

2.Hadoop演進與Hadoop生態

1.瞭解對比Hadoop不同版本的特性，可以用圖表的形式呈現。 Apache Hadoop：Apache Hadoop是一款支援資料密集型分散式應用並以Apache 2.0許可協議釋出的開源軟體框架。它支援在商品硬體構建的大型叢集上執行的應用程式

Hadoop演進與Hadoop生態

瞭解對比Hadoop不同版本的特性，可以用圖表的形式呈現。 ApacheHadoop版本分為兩代，我們將第一代Hadoop稱為Hadoop1.0，第二代Hadoop稱為Hadoop2.0。第一代Hadoop包含三個大版本，分別是0.20.x，0.21.x和0.22.x，其中

大資料與Hadoop

Day01 1. 大資料簡介 1.1 大資料的由來 1 隨著計算機技術的發展，網際網路的普及，資訊的積累已經到了一個非常龐大的地步，資訊的增長也在不斷的加快，隨著網際網路、物聯網建設的加快，資訊更是

HIVE報錯：Error: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)

執行insert into table video_orc select * from video_ori;時報錯檢視hive日誌發現具體報錯資訊如下：

2.Hadoop演進與Hadoop生態

一、基礎環境

1.1 安裝說明

二、Host配置

三、Hadoop的安裝與配置

3.1 建立檔案目錄

3.2 下載

3.3 配置環境變數

3.4 Hadoop的配置

四、執行Hadoop

4.1 格式化NameNode

4.2 啟動NameNode

4.3 啟動DataNode

4.4 執行YARN

4.5 檢視叢集是否啟動成功：

五、測試hadoop

5.1 測試HDFS

5.2 檢視叢集狀態

5.3 測試YARN

5.4 測試mapreduce

5.5 測試檢視HDFS：

六、配置執行Hadoop中遇見的問題

JAVA_HOME未設定

一.特點

安全

可靠

易用

二.可用性

金融領域

應用場景

場景特點

運營商領域

應用場景

場景特點

相關推薦