Druid 大數據分析之快速應用（單機模式）

阿新 • • 發佈：2018-01-30

uid druid 控制臺 config html static 數據存儲指定時間 get

1、概述本節快速安裝基於單機服務器，很多配置可以默認不需要修改，數據存儲在操作系統級別的磁盤。推出快速安裝的目的，便於了解並指導基於Druid進行大數據分析的開發流程。本節主要講Druid的安裝、實例數據加載、查詢及使用問題解決。

2、安裝要求 1. Java 7 及以上
2. Linux, Mac OS X, or other Unix-like OS (Windows不支持)
3. VMware
4. 2CPU ++; 內存2G ++

3、Zookeeper 安裝本次采單機版安裝，如果采用分布式安裝，則需要修改Druid相應配置，反之不需要。 Zookeeper默認啟用2181端口監聽。

Linux代碼

curl http://www.gtlib.gatech.edu/pub/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz -o zookeeper-3.4.6.tar.gz
tar -xzf zookeeper-3.4.6.tar.gz
cd zookeeper-3.4.6
cp conf/zoo_sample.cfg conf/zoo.cfg
./bin/zkServer.sh start

zookeeper 安裝驗證

Linux和zookeeper命令代碼

cd zookeeper-3.4.6 // 切換至Zookeeper根目錄
bin/zkCli.sh // 啟動Zookeeper客戶端
ls / // 查看根節點

4、Druid 安裝 Java代碼

curl -O http://static.druid.io/artifacts/releases/druid-0.9.1.1-bin.tar.gz
tar -xzf druid-0.9.1.1-bin.tar.gz
cd druid-0.9.1.1

解壓後 Druid 相關目錄說明

LICENSE - 許可證文件。
bin/ - 快速啟動腳本。
conf/* - 集群安裝配置（包括Hadoop）。
conf-quickstart/*

- 快速啟動相關配置。
extensions/* - Druid擴展。
hadoop-dependencies/* - Druid hadoop依賴。
lib/* - Druid核心軟件包。
quickstart/* - 快速啟動示例文件及數據。

5、啟動 Druid 準備啟動Druid相關服務之前，我們需要做兩件事：
1. 啟動Zookeeper
2. 切換到Druid根目錄，執行 bin/init

6、啟動 Druid 相關服務啟動5個Druid進程在不同遠程終端窗口，因為是單機模式，所有進程在同一服務器上；在大的分布式集群中，很多Druid進程可以在同一服務器，我們需要啟動的5個Druid進程：Historical、Broker、coordinator、overlord、middleManager。overlord與middleManager對應Indexer節點，節點相關介紹請查看《http://yangyangmyself.iteye.com/blog/2320502》，後續將會詳細介紹節點工作機制。

切換至Druid安裝目錄，在不同遠程終端窗口依次執行以命令

Java代碼

java `cat conf-quickstart/druid/historical/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/historical:lib/*" io.druid.cli.Main server historical
java `cat conf-quickstart/druid/broker/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/broker:lib/*" io.druid.cli.Main server broker
java `cat conf-quickstart/druid/coordinator/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/coordinator:lib/*" io.druid.cli.Main server coordinator
java `cat conf-quickstart/druid/overlord/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/overlord:lib/*" io.druid.cli.Main server overlord
java `cat conf-quickstart/druid/middleManager/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/middleManager:lib/*" io.druid.cli.Main server middleManager

Druid 控制臺如果上述服務啟動成功，則可以訪問如下控制臺
1. 訪問http://localhost:8090/console.html 可以查看數據批量導入Druid的任務執情況，間隔一段時間刷新一下控制臺，如果看到SUCCESS任務狀態，說明任務執行成功，如下圖所示：

技術分享圖片

2. 訪問http://localhost:8081/ 查看任完成進度、數據分片情況、索引創建等

技術分享圖片

7、Druid 加文件數據以上Druid相關服務啟動後，我們需要加載相關業務數據到Druid，Druid根據數據加載的配置文件，將我們的原始業務數據做相應的預處理後進行存儲，以便後續查詢統計。數據加載有兩種方式：一是實時加載；二、加載批文件，本節講如何加載Json批數據文件。
Linux環境下加載數據文件，執行方式如下：

Pass.json代碼

{"gcxh":"430000002745468976","license":"測AZ6LUL","licenseType":"02","hpys":"5","csys":null,"cllx":"0","clpp":null,"gateId":"430186000347","fxlx":"8","cdbh":"1","passTime":"2016-07-03T20:23:17.000Z","carPassDate":"2016-07-04","carPassTime":"04:23:17","carLoc":"測A","province":"43","city":"4301","region":"430186"}

Pass-index.json代碼

{
"type" : "index_hadoop",
"spec" : {
"ioConfig" : {
"type" : "hadoop",
"inputSpec" : {
"type" : "static",
"paths" : "/opt/data/pass.json" /**指定數據*/
}
},
"dataSchema" : {
"dataSource" : "kakou", /**數據源名，類似表名*/
"granularitySpec" : {
"type" : "uniform",
"segmentGranularity" : "day", /**數據分片粒度，按天*/
"queryGranularity" : "none",
"intervals" : ["2016-07-04/2016-07-05"] /**時間跨度*/
},
"parser" : {
"type" : "string",
"parseSpec" : {
"format" : "json", /**數據文件類型*/
"dimensionsSpec" : {
"dimensions" : [ /**數據列*/
"license",
"carLoc",
"licenseType",
"hpys",
"cllx",
"clpp",
"gateId",
"fxlx",
"passTime",
"carPassDate",
"carPassTime",
"province",
"city",
"region"
]
},
"timestampSpec" : {
"format" : "auto",
"column" : "passTime" /**指定時間分段*/
}
}
},
"metricsSpec" : [
{
"name" : "count",
"type" : "count" /**按count聚合*/
}
]
},
"tuningConfig" : {
"type" : "hadoop",
"partitionsSpec" : {
"type" : "hashed",
"targetPartitionSize" : 5000000
},
"maxRowsInMemory":500000,
"jobProperties" : {}
}
}
}

將上述Json示例數據保存為pass.json的文件，接下來定義一個數據配置文件pass-index.json，在pass-index.json中引用數據pass.json、指定數據源名（類似表名）、數據維度列、聚合粒度、時間間隔等。

Java代碼

/**執行如下命令進行導入操作*/
curl -X ‘POST‘ -H ‘Content-Type:application/json‘ -d @/opt/data/pass-index.json 192.168.121.200:8090/druid/indexer/v1/task

8、Druid 數據導入問題及解決辦法 1. 中文亂碼：Json規範這裏不再闡述，講一下生成Json數據文件註意的情況，目前發現Json中含有中文情況下，將Json數據加載到Druid時出現亂碼。生成Json指文件編碼為UTF-
2. 時間序列值：Druid按時間進序列值進行數據分片，按時間字段進行數據分片的字段值需要標準化（UTC）處理。
3. 任務掛起或等待：Druid將任務提交給Hadoop中的Map-Reduce執行，導入時任務可會因為某種原因導致任務掛起或停止。

中文亂碼解決辦法：

編碼代碼

try{
OutputStream out = new FileOutputStream(new File("E:\\study\\druid\\rpass_20150801.json"),true);
Writer write = new OutputStreamWriter(out,"utf-8");
write.write(json.toString()+"\n");
write.flush();
write.close();
out.close();
}catch(){
e.printStackTrace();
}

時間序列值UTC標準化：

Java代碼

/**引用Joda類庫*/
DateTimeFormatter dtFormatter=DateTimeFormat.forPattern("yyyy-MM-dd hh:mm:ss");
/**輸出結果 2016-08-29T22:58:20.000Z*/
String result = dtFormatter.parseDateTime(‘2016-08-29 22:58:20‘).withZone(DateTimeZone.UTC).toString();

任務掛起或停止解決辦法：可以通過下述命將掛起任務刪除，重新執行導入。

Java代碼

/**taskId可以從控制臺獲取或在執行Curl導入命令時返回值*/
http://<OVERLORD_IP>:<port>/druid/indexer/v1/task/{taskId}/shutdown

9、Druid 請求接口 1. 查詢請求接口對應Broker，默認8082端口 http://<queryable_host>:<port>/druid/v2/?pretty
2. 數據導入接口對應Indexing，默認8090端口 http://<OVERLORD_IP>:<port>/druid/indexer/v1/task

Druid 大數據分析之快速應用（單機模式）

uid druid 控制臺 config html static 數據存儲指定時間 get 1、概述本節快速安裝基於單機服務器，很多配置可以默認不需要修改，數據存儲在操作系統級別的磁盤。推出快速安裝的目的，便於了解並指導基於Druid進行大數據分析的開發流程。

Druid 大數據分析之快速應用（單機模式）

Druid 大數據分析之快速應用（單機模式）

Spark快速大數據分析之RDD基礎

工業大數據分析平臺的應用價值探討

江蘇省公安廳警綜匯聚大數據項目DSG應用（13地市Oracle實時同步到省中心的Greenplum）

太平洋保險家園大數據項目DSG應用（30多個Oracle等實時同步到KAFKA）

大數據分析技術與應用

大數據學習之MapReduce核心（Shuffle洗牌）12

排序算法入門之快速排序（java實現）

數據結構之線性表（鏈表）

大數據分析師和大數據工程師職位，孰輕孰重（個人角度）

學習大數據需要掌握的知識（不得不看）

Uboot啟動過程原始碼分析之第一階段（硬體相關）

JavaSpring之Aop應用（java專案）

前端演算法之快速排序（JS版）

虛擬碼演算法之快速排序（分治排序）

55.storm 之 hello word（本地模式）

java設計模式之Composite Pattern（組合模式）

redis之mybatis快取（單機+叢集）

設計模式總結之Proxy Pattern（代理模式）

設計模式總結之Visitor Pattern（訪問者模式）

Druid 大數據分析之快速應用（單機模式）

相關推薦