java大資料最全課程學習筆記(2)--Hadoop完全分散式執行模式

阿新 • • 發佈：2020-07-15

目前CSDN,部落格園,簡書同步發表中,更多精彩歡迎訪問我的gitee pages

Hadoop完全分散式執行模式

Hadoop完全分散式執行模式

步驟分析:

準備3臺客戶機（關閉防火牆、靜態ip、主機名稱）

vim /etc/sysconfig/network

三臺機器各自的配置分別為HOSTNAME=hadoop101;HOSTNAME=hadoop102;HOSTNAME=hadoop103

vim /etc/hosts

三臺機器都加入下面的對映關係
```
192.168.1.101 hadoop101

192.168.1.102 hadoop102

192.168.1.103 hadoop103
```
安裝JDK
配置環境變數
安裝Hadoop
配置環境變數
配置叢集
單點啟動
配置ssh
群起並測試叢集

由於在上一章節已經配置好環境並測試了hadoop偽分散式開發模式,所以在此不再贅述.

編寫叢集分發指令碼xsync

scp(secure copy) 安全拷貝(全量複製)
1. scp定義
  
  scp可以實現伺服器與伺服器之間的資料拷貝.（from server1 to server2）
2. 基本語法
  
  scp -r 原始檔使用者名稱[email protected]
  
  主機名1：path1 目標檔案使用者名稱[email protected]主機名2：path2
3. 其他
  1. 如果從本機執行讀取或寫入，使用者名稱[email protected]主機名2：可以省略！
  2. 在主機1上，使用A使用者讀取path1的檔案，再使用使用者B登入到主機2，在主機2的path2路徑執行寫入！
  3. 要求：
    1. 使用者名稱[email protected]主機名1 對path1有讀許可權
    2. 使用者名稱[email protected]主機名2 對path2有寫許可權
rsync 遠端同步工具

rsync主要用於備份和映象。具有速度快、避免複製相同內容和支援符號連結的優點。

rsync和scp區別：用rsync做檔案的複製要比scp的速度快，rsync只對差異檔案做更新。scp是把所有檔案都複製過去。

rsync -rvlt path1 目標檔案使用者名稱[email protected]主機名2：path2

選項功能

-r 遞迴

-v 顯示覆制過程

-l 拷貝符號連線

-t 基於檔案的修改時間進行對比，只同步修改時間不同的檔案

只能將本機的檔案同步到其他機器！

注意:path1是個目錄，目錄以/結尾，只會同步目錄中的內容，不會同步目錄本身！目錄不以/結尾，同步目錄中的內容，也會同步目錄本身！

選項	功能
-r	遞迴
-v	顯示覆制過程
-l	拷貝符號連線
-t	基於檔案的修改時間進行對比，只同步修改時間不同的檔案

編寫xsync叢集分發指令碼

需求:迴圈複製檔案到所有節點的相同目錄下,即將當前機器的檔案，同步到叢集所有機器的相同路徑下！例如:hadoop102:/A/a , 執行指令碼後，將此檔案同步到叢集中所有機器的 /A/a
需求分析:
1. 使用者在使用xsync時，只需要傳入要同步的檔案即可
  
  xysnc a
  
  不管a是一個相對路徑還是絕對路徑，都需要將a轉換為絕對路徑！
2. 檔案的絕對路徑：
  
  父路徑： dirpath=$(cd dirname /home/atguigu/hi; pwd -P)
  
  檔名： filename=basename hi
  
  pwd -P為了避免軟連結無法獲取到真實的父路徑
3. 核心命令：
  
  for(())
  
  do
  
  rsync -rvlt path1
  
  done
4. 說明：在/home/atguigu/bin這個目錄下存放的指令碼，atguigu使用者可以在系統任何地方直接執行。

指令碼實現:

[[email protected] ~]$ mkdir bin

[[email protected] ~]$ cd bin/

[[email protected] bin]$ touch xsync

[[email protected] bin]$ vi xsync

在該檔案中編寫如下程式碼

#!/bin/bash

#校驗引數是否合法

if(($#==0))

then

		echo 請輸入要分發的檔案!

		exit;

fi

#拼接要分發檔案的絕對路徑

dirpath=$(cd `dirname $1`; pwd -P)

filename=`basename $1`

echo 要分發的檔案的路徑是:$dirpath/$filename

#迴圈執行rsync分發檔案到叢集的每臺機器

for((i=101;i<=103;i++))

do

		echo --------------hadoop$i-------------------

		rsync -rvlt $dirpath/$filename [email protected]$i:$dirpath

done

修改指令碼 xsync 具有執行許可權

[[email protected] bin]$ chmod 777 xsync

或者

[[email protected] bin]$ chmod u+x xsync

呼叫指令碼形式：xsync 檔名稱

編寫批量執行同一命令的指令碼

#!/bin/bash

#在叢集的所有機器上批量執行同一條命令

if(($#==0))

then

		echo 請輸入您要操作的命令!

		exit;

fi

echo 要執行的命令是$*

#迴圈執行此命令

for((i=101;i<=103;i++))

do

		echo --------------hadoop$i-------------------

		ssh hadoop$i $*

done

叢集配置

叢集部署規劃

	hadoop101	hadoop102	hadoop103
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

配置叢集

核心配置檔案

配置core-site.xml

[[email protected] hadoop]$ vi core-site.xml

在該檔案中編寫如下配置

<!-- 指定HDFS中NameNode的地址 -->

<property>

	<name>fs.defaultFS</name>

     <value>hdfs://hadoop101:9000</value>

</property>

<!-- 指定Hadoop執行時產生檔案的儲存目錄 -->

<property>

	<name>hadoop.tmp.dir</name>

	<value>/opt/module/hadoop-2.7.2/data/tmp</value>

</property>

HDFS配置檔案

配置hadoop-env.sh

[[email protected] hadoop]$ vi hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144
配置hdfs-site.xml

[[email protected] hadoop]$ vi hdfs-site.xml

在該檔案中編寫如下配置

<property>

	  <name>dfs.replication</name>

	  <value>3</value>

</property>

<!-- 指定Hadoop輔助名稱節點主機配置 -->

<property>

     <name>dfs.namenode.secondary.http-address</name>

     <value>hadoop103:50090</value>

</property>

YARN配置檔案

配置yarn-env.sh

[[email protected] hadoop]$ vi yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144
配置yarn-site.xml

[[email protected] hadoop]$ vi yarn-site.xml

在該檔案中增加如下配置

<!-- reducer獲取資料的方式 -->

<property>

	  <name>yarn.nodemanager.aux-services</name>

	  <value>mapreduce_shuffle</value>

</property>

<!-- 指定YARN的ResourceManager的地址 -->

<property>

	  <name>yarn.resourcemanager.hostname</name>

	  <value>hadoop101</value>

</property>

MapReduce配置檔案
- 配置mapred-env.sh
  
  [[email protected] hadoop]$ vi mapred-env.sh
  
  export JAVA_HOME=/opt/module/jdk1.8.0_144
- 配置mapred-site.xml
  
  [[email protected] hadoop]$ vi mapred-site.xml
- 在該檔案中增加如下配置
```


<property>

	  <name>mapreduce.framework.name</name>

	  <value>yarn</value>

</property>
```
在叢集上分發配置好的Hadoop配置檔案

[[email protected] hadoop]$ xsync /opt/module/hadoop-2.7.2/
檢視檔案分發情況

xcall cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml

叢集單點啟動

如果叢集是第一次啟動，需要格式化NameNode

[[email protected] hadoop-2.7.2]$ hadoop namenode -format

在hadoop102上啟動NameNode

[[email protected] hadoop-2.7.2]$ hadoop-daemon.sh start namenode

[[email protected] hadoop-2.7.2]$ jps

8118 NameNode

啟動hadoop101,hadoop102,hadoop103上的DataNode

[[email protected] hadoop-2.7.2]$ xcall hadoop-daemon.sh start datanode

[[email protected] hadoop]$ xcall jps

要執行的命令是jps

--------------hadoop101-------------------

8118 NameNode

13768 Jps

8238 DataNode

--------------hadoop102-------------------

8072 DataNode

12959 Jps

--------------hadoop103-------------------

7347 DataNode

13950 Jps

SSH無密登陸配置

免密登入原理
生成公鑰和私鑰

[[email protected] .ssh]$ ssh-keygen -t rsa

然後敲（三個回車），就會生成兩個檔案id_rsa（私鑰）、id_rsa.pub（公鑰）

將公鑰拷貝到要免密登入的目標機器上的/home/atguigu/.ssh目錄下的authorized_keys中

以下命令可以直接完成上述操作

[[email protected] .ssh]$ ssh-copy-id hadoop101

[[email protected] .ssh]$ ssh-copy-id hadoop102

[[email protected] .ssh]$ ssh-copy-id hadoop103

.ssh資料夾下（~/.ssh）的檔案功能解釋

known_hosts 記錄ssh訪問過計算機的公鑰(public key)

id_rsa 生成的私鑰

id_rsa.pub 生成的公鑰

authorized_keys 存放授權過得無密登入伺服器公鑰

known_hosts	記錄ssh訪問過計算機的公鑰(public key)
id_rsa	生成的私鑰
id_rsa.pub	生成的公鑰
authorized_keys	存放授權過得無密登入伺服器公鑰

登入狀態的環境變數

Login Shell

是指登入時，需要提供使用者名稱密碼的shell，如：su – user1 , 圖形登入， ctrl+alt+F2-6進入的登入介面。
- 這種Login shell 執行指令碼的順序：
  1. /etc/profile 【全域性profile檔案;它定義了LoginUser的 PATH, USER, LOGNAME(登入使用者帳號)】
  2. /etc/profile.d/目錄下的指令碼
  3. ～/.bash_profile 【搜尋命令的路徑 ——————- 登入級別環境變數配置檔案】
  4. ～/.bashrc 【儲存使用者設定的別名和函式 ———- shell級別環境變數配置檔案】
  5. /etc/bashrc 【全域性bashrc檔案; 它主要定義一些 Function 和 Alias；更改/etc/bashrc會影響到所有使用者,由root使用者管理。】
Non-Login shell
- 登入終端後，使用ssh 登入其他機器！
- 非登入shell指的是，不需要輸入使用者名稱密碼的shell，如圖形下右鍵terminal，或ctrl+shift+T開啟的shell
- 這種Non-Login shell 執行登入指令碼的順序：
  1. ~/.bashrc
  2. /etc/bashrc
  3. /etc/profile.d/目錄下的指令碼
ssh 目標機器

登入之後，執行某個命令！

屬於Login-shell，會自動讀取 /etc/profile檔案中定義的所有的變數！
ssh 目標機器命令

屬於Non-Login-shell

不會讀取/etc/profile

如果在使用命令時，我們需要使用/etc/profile定義的一些變數，需要在目標機器的對應的使用者的家目錄/.bashrc中新增以下程式碼

source /etc/profile

如果不新增以上程式碼，在執行start-all.sh | stop-all.sh一定會報錯！

群起叢集

群起指令碼的原理是獲取叢集中所有的節點的主機名

預設讀取當前機器 HADOOP_HOME/etc/hadoop/slaves，獲取叢集中所有的節點的主機名

迴圈執行 ssh 主機名 hadoop-daemon.sh start xxx

保證當前機器到其他節點，已經配置了ssh免密登入

保證叢集中所有當前使用者的家目錄/.bashrc中，已經配置source /etc/profile

配置slaves
```
/opt/module/hadoop-2.7.2/etc/hadoop/slaves

[[email protected] hadoop]$ vi slaves
```
在檔案中增加如下內容:
```
hadoop101

hadoop102

hadoop103
```
注意：該檔案中新增的內容結尾不允許有空格，檔案中不允許有空行。

啟動叢集

如果叢集是第一次啟動，需要格式化NameNode

[[email protected] hadoop-2.7.2]$ hdfs namenode -format

啟動HDFS

[[email protected] hadoop]$ start-dfs.sh

[[email protected] hadoop]$ xcall jps

要執行的命令是jps

--------------hadoop101-------------------

8118 NameNode

13768 Jps

8238 DataNode

--------------hadoop102-------------------

8072 DataNode

12959 Jps

--------------hadoop103-------------------

7473 SecondaryNameNode

7347 DataNode

13950 Jps

啟動YARN

[[email protected] hadoop-2.7.2]$ start-yarn.sh
web端檢視SecondaryNameNode
1. 瀏覽器中輸入：http://hadoop103:50090/status.html
2. 檢視SecondaryNameNode資訊

叢集基本測試
1. hadoop fs -mkdir /wcinput
2. hadoop fs -put hi /wcinput/
3. hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /wcinput/ /wcoutput

叢集啟動/停止方式總結

各個服務元件逐一啟動/停止
1. 分別啟動/停止HDFS元件
  
  hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode
2. 啟動/停止YARN
  
  yarn-daemon.sh start / stop resourcemanager / nodemanager
各個模組分開啟動/停止（配置ssh是前提）
1. 整體啟動/停止HDFS
  
  start-dfs.sh / stop-dfs.sh
2. 整體啟動/停止YARN
  
  start-yarn.sh / stop-yarn.sh
啟動歷史伺服器

mr-jobhistory-daemon.sh start historyserver