大資料Hadoop學習筆記（二）

阿新 • • 發佈：2018-11-09

Single Node Setup

官網地址

1. 本地模式

2.偽分散式模式

************************* 本地模式 ****************************

2-1

. grep input output ‘dfs[a-z.]+’ 執行mapreduce的例子，input是當前目錄下的資料夾；output是執行輸出結果儲存的地方，並且在當前目錄下沒有。'dfs[a-z.]+'是檢索的引數

可以看到執行成功後，目錄中出現了output。output中有_success檔案說明成功。運算結果在part-r-00000中，結果如圖2-2所示。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount wcinput wcoutput
檢視wcinput中wc.input檔案中單詞的數量,執行結果如下：

*********************** 偽分散式******************************

hadoop的埠號一般為8020
namenode儲存的元資料
$ bin/hdfs namenode -format namenode格式化
sbin/hadoop-daemon.sh start namenode 啟動namenode

sbin/hadoop-daemon.sh start datanode 啟動datanode。
在根目錄下會出現log資料夾，說明啟動成功
訪問192.168.220.128:50070

具體步驟：
-

YARN on Single Node

步驟如下：

啟動方式

服務逐一啟動
hdfs：sbin/hadoop-daemon.sh start|stop namenode|datanode|secondarynamenode
yarn:sbin/yarn-daemon.sh start|stop resourcemanager|nodemanager
mapreduce: sbin/mr-historyserver-daemon.sh start|stop history

各個模組啟動:(配置ssh無金鑰登陸)
hdfs:sbin/start-dfs.sh
yarn:sbin/start-yarn.sh
一起啟動：
sbin/start-all.sh

配置檔案

HDFS

NameNode：core-site.xml檔案

<property>
     <name>fs.defaultFS</name>
     <value>hdfs://localhost:9000</value>———》指定了namenode執行的機器hostname:8020
</property>

DataNode：slaves檔案
SecondaryNamenode：hdfs-site.xml

   <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>"hostname":50090</value>————》指定了namenode執行的機器
    </property>

YARN

ResourceManager：yarn-site.xml

    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hsotname</value>
    </property>

NodeManager：slaves檔案
MapReduce：mapred-site.xml
HistoryServer：mapred-site.xml

<property>
        <name>mapreduce.jobhistory.address</name>
        <value>hsotname:10020</value>
</property>
<property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>hsotname:19888</value>
</property>

大資料Hadoop學習筆記（二）

Single Node Setup 官網地址 1. 本地模式 2.偽分散式模式 ************************* 本地模式 **************************** . grep input output ‘dfs[a-

大資料Hadoop學習筆記（三）

1.HDFS架構講解 2.NameNode啟動過程 3.YARN架構組建功能詳解 4.MapReduce 程式設計模型 HDFS架構講解源自谷歌的GFS論文 HDFS： *抑鬱擴充套件的分散式系統 *執行在大量普通的鏈家機器上，提供容錯機制 *為

大資料Hadoop學習筆記（一）

大資料Hadoop2.x hadoop用來分析儲存網路資料 MapReduce：對海量資料的處理、分散式。思想————> 分而治之，大資料集分為小的資料集，每個資料集進行邏輯業務處理合並統計資料結果（reduce）執行模式：本地模式和yarn模式 input—

大資料Hadoop學習筆記（五）

分散式部署本地模式Local Mode 分散式Distribute Mode 偽分散式一臺機器執行所有的守護程序從節點DN和NM只有一個完全分散式

大資料Hadoop學習筆記（四）

MapReduce執行過程 ======== step1 ： input InputFormat 讀取資料轉換成<key, value>

大資料Hadoop學習筆記（六）

HDFS HA 背景：在hadoop2.0之前，HDFS叢集中的NameNode存在單點故障（SPOF）對於只有一個NameNode的叢集，若NameNode機器出現故障，則整個叢集將無法使用，直到NameNode重新啟動 NameNode主要在一下兩方面影響

大資料入門學習筆記（貳）- 初識Hadoop

文章目錄 Hadoop概述 Hadoop能做什麼 Hadoop核心元件分散式檔案系統HDFS 分散式檔案系統HDDS 資源排程系統YARN 分散式計算框架MapReduce Had

大資料入門學習筆記（叄）- 布式檔案系統HDFS

文章目錄 HDFS概述及設計目標什麼是HDFS HDFS的設計目標 HDFS架構 HDFS副本機制副本存放策略![在這裡插入圖片描述](https://img-blog.csdnimg.cn/20181

大資料入門學習筆記（壹） - 大資料概述

文章目錄大資料故事大資料背景大資料基本概念大資料定義大資料4V特徵大資料要解決的問題大資料涉及到的技術大資料帶來的技術挑戰在技術架構上的挑戰其他挑戰

spark快速大資料分析學習筆記（1）

本文是《spark快速大資料分析學習》第三章學習筆記，文中大量摘抄書中原本，僅為個人學習筆記。 RDD基礎： RDD是一個不可變的分散式物件集合。每個RDD都被分為多個分割槽，這個分割槽執行在叢集的不同節點上。RDD可以包含Python、Java、Scala中任意型別的物件。建立RDD的方式：

資料結構學習筆記（二）

一、棧棧是一種操作受限的資料結構，只支援入棧和出棧操作。後進先出（LIFO）是它的最大的特點。棧既可以通過陣列實現，也可以通過連結串列實現。不管基於陣列還是連結串列，入棧、出棧的時間複雜度都為O(1)。二

資料結構學習筆記（二）---求階乘（遞迴與非遞迴）

求100！的階乘遞迴演算法： #include <stdio.h> long f(long n) { if(1 == n) return 1; else return f(

Hadoop學習筆記（二）設定單節點叢集

本文描述如何設定一個單一節點的 Hadoop安裝，以便您可以快速執行簡單的操作，使用HadoopMapReduce和Hadoop分散式檔案系統(HDFS)。Hadoop版本：Apache Hadoop 2.5.1系統版本：CentOS 6.5，核心（uname -r）：2.6

大資料基礎知識學習-----Hive學習筆記（二）Hive安裝環境準備

Hive安裝環境準備 Hive安裝地址 Hive安裝部署 Hive安裝及配置把apache-hive-1.2.1-bin.tar.gz上傳到linux的/opt/software目錄下解壓apache-hive-1.2.

十小時入門大資料學習筆記（二）

第二章初識Hadoop2.1Hadoop概述名稱由來：專案作者的孩子對黃色大象玩具的命名開源、分散式儲存與分散式計算的平臺Hadoop能做什麼：1. 搭建大型資料倉庫，PB級資料的儲存、處理、分析、統計等業務2. 搜尋引擎、日誌分析、資料探勘、商業智慧2.2Hadoop核心

Golang學習筆記（二）資料型別

Go的資料型別與Java等語言的資料型別幾乎一致 //byte其實就是uint8的別名 var aaa byte = 100 // rune其實就是int32的別名 var bbb rune = 200 //可以給一個字元，計算ascll碼 var ddd byte = 'a' var c

Java中未給定初始值的基礎資料型別為什麼不能輸出　——Thinking in Java學習筆記（二）

在java程式設計思想第二章節中有這麼一個練習題：定義一個類，給定兩個無初始值的int和char型別的數值，輸出兩個數的值，驗證int和char的初始值。我第一次是這麼做的： public static void main(String[] args) { int i; char

大資料分析學習筆記（Z檢驗，分類器以及Association Rule）

大資料分析學習筆記（Z檢驗，分類器以及Association Rule） Task 1 – Hypothesis Testing To improve student learning performance, a teacher developed two new learning app

學習筆記（二）tidyverse之readxl包------表格資料讀取

1、readxl概況 readxl包是tidyverse中的一員，是匯入Excel表格資料的一個R包，由Hadley Wickham開發的。與其他已經存在的包（例如：gdata包、xlsx包…）最大的區別是不依賴其他外部程式，能夠在所有作業系統中都方便使用; 主要功能是匯入

C++學習筆記（二）：開啟檔案、讀取資料、資料定位與資料寫入

1.開啟二進位制檔案（fopen）、讀取資料（fread），應用示例如下： FILE *fp = fopen("data.yuv", "rb+"); //開啟當前目錄中的data.yuv檔案 char *buffer = ( char*) malloc (sizeof(char)*FrameSi

大資料Hadoop學習筆記（二）

Single Node Setup

1. 本地模式

2.偽分散式模式

YARN on Single Node

啟動方式

配置檔案

HDFS

YARN

相關推薦