Hbase 學習（十一）使用hive往hbase當中匯入資料

阿新 • • 發佈：2022-04-29

　　我們可以有很多方式可以把資料匯入到hbase當中，比如說用map-reduce，使用TableOutputFormat這個類，但是這種方式不是最優的方式。

　　Bulk的方式直接生成HFiles，寫入到檔案系統當中，這種方式的效率很高。

　　一般的步驟有兩步

　　（1）使用ImportTsv或者import工具或者自己寫程式用hive/pig生成HFiles

　　（2）用completebulkload把HFiles載入到hdfs上

　　ImportTsv能把用Tab分隔的資料很方便的匯入到hbase當中，但還有很多資料不是用Tab分隔的下面我們介紹如何使用hive來匯入資料到hbase當中。

　　1.準備輸入內容　　a.建立一個tables.ddl檔案

-- pagecounts data comes from http://dumps.wikimedia.org/other/
pagecounts-raw/
-- documented http://www.mediawiki.org/wiki/Analytics/Wikistats
-- define an external table over raw pagecounts data
CREATE TABLE IF NOT EXISTS pagecounts (projectcode STRING, pagename
STRING, pageviews STRING, bytes STRING)
ROW FORMAT
DELIMITED FIELDS TERMINATED BY ' '
LINES TERMINATED BY 'n'
STORED AS TEXTFILE
LOCATION '/tmp/wikistats';
-- create a view, building a custom hbase rowkey
CREATE VIEW IF NOT EXISTS pgc (rowkey, pageviews, bytes) AS
SELECT concat_ws('/',
projectcode,
concat_ws('/',
pagename,
regexp_extract(INPUT__FILE__NAME, 'pagecounts-(\d{8}-\d{6})
..*$', 1))),
pageviews, bytes
FROM pagecounts;
-- create a table to hold the input split partitions
CREATE EXTERNAL TABLE IF NOT EXISTS hbase_splits(partition STRING)
ROW FORMAT
SERDE 'org.apache.hadoop.hive.serde2.binarysortable.
BinarySortableSerDe'
STORED AS
INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.
HiveNullValueSequenceFileOutputFormat'
LOCATION '/tmp/hbase_splits_out';
-- create a location to store the resulting HFiles
CREATE TABLE hbase_hfiles(rowkey STRING, pageviews STRING, bytes STRING)
STORED AS
INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.hbase.HiveHFileOutputFormat'
TBLPROPERTIES('hfile.family.path' = '/tmp/hbase_hfiles/w');

　　b.建立HFils分隔檔案，例子：sample.hql

-- prepate range partitioning of hfiles
ADD JAR /usr/lib/hive/lib/hive-contrib-0.11.0.1.3.0.0-104.jar;
SET mapred.reduce.tasks=1;
CREATE TEMPORARY FUNCTION row_seq AS 'org.apache.hadoop.hive.contrib.udf.
UDFRowSequence';
-- input file contains ~4mm records. Sample it so as to produce 5 input
splits.
INSERT OVERWRITE TABLE hbase_splits
SELECT rowkey FROM
(SELECT rowkey, row_seq() AS seq FROM pgc
TABLESAMPLE(BUCKET 1 OUT OF 10000 ON rowkey) s
ORDER BY rowkey
LIMIT 400) x
WHERE (seq % 100) = 0
ORDER BY rowkey
LIMIT 4;
-- after this is finished, combined the splits file:
dfs -cp /tmp/hbase_splits_out/* /tmp/hbase_splits;

　　c.建立hfiles.hql

ADD JAR /usr/lib/hbase/hbase-0.94.6.1.3.0.0-104-security.jar;
ADD JAR /usr/lib/hive/lib/hive-hbase-handler-0.11.0.1.3.0.0-104.jar;
SET mapred.reduce.tasks=5;
SET hive.mapred.partitioner=org.apache.hadoop.mapred.lib.
TotalOrderPartitioner;
SET total.order.partitioner.path=/tmp/hbase_splits;
-- generate hfiles using the splits ranges
INSERT OVERWRITE TABLE hbase_hfiles
SELECT * FROM pgc
CLUSTER BY rowkey;

　　2.匯入資料

　　注意：/$Path_to_Input_Files_on_Hive_Client是hive客戶端的資料儲存目錄

mkdir /$Path_to_Input_Files_on_Hive_Client/wikistats
wget http://dumps.wikimedia.org/other/pagecounts-raw/2008/2008-10/
pagecounts-20081001-000000.gz 
hadoop fs -mkdir /$Path_to_Input_Files_on_Hive_Client/wikistats
hadoop fs -put pagecounts-20081001-000000.
gz /$Path_to_Input_Files_on_Hive_Client/wikistats/

　　3.建立必要的表

　　注意：$HCATALOG_USER是HCatalog服務的使用者(預設是hcat)

$HCATALOG_USER-f /$Path_to_Input_Files_on_Hive_Client/tables.ddl

　　執行之後，我們會看到如下的提示：

OK
Time taken: 1.886 seconds
OK
Time taken: 0.654 seconds
OK
Time taken: 0.047 seconds
OK
Time taken: 0.115 seconds

　　4.確認表已經正確建立

　　執行以下語句

$HIVE_USER-e "select * from pagecounts limit 10;"

　　執行之後，我們會看到如下的提示：

...
OK
aa Main_Page 4 41431
aa Special:ListUsers 1 5555
aa Special:Listusers 1 1052

　　再執行

$HIVE_USER-e "select * from pgc limit 10;"

　　執行之後，我們會看到如下的提示：

...
OK
aa/Main_Page/20081001-000000 4 41431
aa/Special:ListUsers/20081001-000000 1 5555
aa/Special:Listusers/20081001-000000 1 1052
...

　　5.生成HFiles分隔檔案

$HIVE_USER-f /$Path_to_Input_Files_on_Hive_Client/sample.hql
hadoop fs -ls /$Path_to_Input_Files_on_Hive_Client/hbase_splits

　　為了確認，執行以下命令

hadoop jar /usr/lib/hadoop/contrib/streaming/hadoop-streaming-1.2.0.1.
3.0.0-104.jar -libjars /usr/lib/hive/lib/hive-exec-0.11.0.1.3.0.0-104.
jar -input /tmp/hbase_splits -output /tmp/hbase_splits_txt -inputformat
SequenceFileAsTextInputFormat

　　執行之後，我們會看到如下的提示：

...
INFO streaming.StreamJob: Output: /tmp/hbase_splits_txt

　　再執行這一句

hadoop fs -cat /tmp/hbase_splits_txt/*

　　執行之後，我們會看到類似這樣的結果

1 61 66 2e 71 2f 4d 61 69 6e 5f 50 61 67 65 2f 32 30 30 38 31 30 30 31 2d 30
30 30 30 30 30 00 (null)
01 61 66 2f 31 35 35 30 2f 32 30 30 38 31 30 30 31 2d 30 30 30 30 30 30 00 
(null)
01 61 66 2f 32 38 5f 4d 61 61 72 74 2f 32 30 30 38 31 30 30 31 2d 30 30 30
30 30 30 00 (null)
01 61 66 2f 42 65 65 6c 64 3a 31 30 30 5f 31 38 33 30 2e 4a 50 47 2f 32 30
30 38 31 30 30 31 2d 30 30 30 30 30 30 00 (null)

　　7.生成HFiles

HADOOP_CLASSPATH=/usr/lib/hbase/hbase-0.94.6.1.3.0.0-104-security.jar hive -f /$Path_to_Input_Files_on_Hive_Client/hfiles.hql

　　以上內容是hdp的使用者手冊中推薦的方式，然後我順便也從網上把最後的一步的命令格式給找出來了

hadoop jar hbase-VERSION.jar completebulkload /user/todd/myoutput mytable

Hbase 學習（十一）使用hive往hbase當中匯入資料

　　我們可以有很多方式可以把資料匯入到hbase當中，比如說用map-reduce，使用TableOutputFormat這個類，但是這種方式不是最優的方式。

SQL學習筆記（十一）Hive SQL和Presto SQL對比

SQL學習筆記（十一）Hive SQL和Presto SQL對比時間轉換注意此處的\"timestamp\"指\'2020-07-20 10:58:59\'這種格式，timestamp才是指\'1595932031\'這種格式，日期格式指2021-08-28

OpenGL學習（十一）-- 用 GLSL 實現載入圖片

我的 OpenGL 專題學習目錄，希望和大家一起學習交流進步！ OpenGL學習（一）-- 術語瞭解

HBase 系列（十一）—— Spring/Spring Boot + Mybatis + Phoenix 整合

一、前言使用 Spring+Mybatis 操作 Phoenix 和操作其他的關係型資料庫（如 Mysql，Oracle）在配置上是基本相同的，下面會分別給出 Spring/Spring Boot 整合步驟，完整程式碼見本倉庫：

Pytest學習（十一）- 失敗重跑外掛pytest-rerunfailures的使用

環境依賴 Python 3.5, 最高 3.8, or PyPy3 pytest 5.0或更高版本外掛安裝 pip3 install pytest-rerunfailures -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

springboot學習（十一）UserAgentUtils

user-agent-utils 是一個用來解析 User-Agent 字串的 Java 類庫。其能夠識別的內容包括：超過150種不同的瀏覽器；7種不同的瀏覽器型別；超過60種不同的作業系統；6種不同的裝置型別；9種不同的渲染引擎；9種不同的We

js學習（十一）-- DOM的簡介、事件簡單介紹、文件載入、DOM查詢

目錄DOM簡介(P91)節點事件文件的載入DOM的查詢獲取元素節點獲取元素節點的子節點獲取父節點和兄弟節點節點的屬性DOM查詢補充根據元素的class屬性查詢一組元素的結點物件querySelector和querySelectorAll練習

【Qt】Qt再學習（十一）：圖形檢視框架（Graphics View Framework）的一個小demo

技術標籤：Qtqt 1、簡介使用的主要類：QGraphicsTextItem、QGraphicsScene、QGraphicsView。 QGraphicsTextItem繼承自QGraphicsObject，而QGraphicsObject繼承自QObject和QGraphicsItem； QGraphicsItem可以是2

前端學習（十一）——HTML5中指令碼、URL及XHTML的簡單學習

技術標籤：前端學習（HTML5+CSS3+JavaScript） 1.HTML指令碼 JavaScript 使 HTML 頁面具有更強的動態和互動性。

微控制器學習（十一）I2C匯流排和AT24C02的使用

一、儲存器介紹儲存器分類圖 1. RAM 這類儲存器中的資料都是掉電即失的，例如計算機中的記憶體就是DRAM，但它們資料讀寫速度都是要比ROM要快得多的。

Vue3學習（十一）之 table表格元件的使用

一、前言大約有兩週沒學習更文，不是懶，而是沒心情，相親路屢戰屢敗，著實很影響心情。

hbase 學習（十二）非mapreduce生成Hfile，然後匯入hbase當中

　　最近一個群友的boss讓研究hbase，讓hbase的入庫速度達到5w+/s，這可愁死了，4臺個人電腦組成的叢集，多執行緒入庫調了好久，速度也才1w左右，都沒有達到理想的那種速度，然後就想到了這種方式，但是網上多是用ma

深度學習與Pytorch入門實戰（十一）資料增強

1. 資料增強比如，你遇到的一個任務，目前只有小几百的資料，然而目前流行的最先進的神經網路都是成千上萬的圖片資料，可以通過資料增強來實現。

設計模式學習筆記（十一）：組合模式

1 概述 1.1 概述對於樹形結構，比如檔案目錄，一個資料夾中可以包含多個資料夾和檔案，而一個檔案中不能在包含子檔案或者子資料夾，在這裡可以稱資料夾為容器，稱檔案為葉子。

Hadoop 學習筆記（十一）MapReduce 簡介

MapReduce定義 Map Reduce 是一個分散式運算程式的程式設計框架，是使用者開發“基於 Hadoop 的資料分析” 應用的核心框架，Map Reduce 的核心功能是將使用者編寫的業務邏輯程式碼和自帶的預設元件，整合成完整的分

Hbase基礎（十五）：與Hive的整合

1.1HBase與Hive的對比 1．Hive (1) 資料倉庫 Hive的本質其實就相當於將HDFS中已經儲存的檔案在Mysql中做了一個雙射關係，以方便使用HQL去管理查詢。

Hbase基礎（十七）：億級資料從 MySQL 到 Hbase 的三種同步方案與實踐（一）環境搭建

原文：https://blog.csdn.net/rlnlo2pnefx9c/article/details/108288956 1.導語大家好，我是光城，下面是我之前在gitchat上釋出的一個資料，今天全部開源！原始碼全部存放在本人github倉庫，地址：https://github.c

visual code 編譯c#_C# 學習之路（十一）

技術標籤：visual code 編譯c# 繼承與介面(下) 本系列文章主要意在總結筆者在學習過程中學到的有關 C# 特性的知識，分享 C# 中較為重要和突出的部分和有助養成良好程式設計習慣的提示。

C++學習筆記（十一）：初始化列表、類成員

技術標籤：C++c++類class面向物件程式設計初始化列表語法：類名（）:成員屬性1（值1），成員屬性2（值2）… {函式體}

專案實戰從0到1之hive（43）大資料專案之電商數倉（使用者行為資料）（十一）

第14章新資料準備為了分析沉默使用者、本週迴流使用者數、流失使用者、最近連續3周活躍使用者、最近七天內連續三天活躍使用者數，需要準備2019-02-12、2019-02-20日的資料。

Hbase 學習（十一）使用hive往hbase當中匯入資料

相關推薦