大資料之hbase（五） --- 匯出Hbase的表文件到HDFS，Hbase Bulk Load Hbase，MySQL資料通過MR匯入到Hbase表中

阿新 • • 發佈：2018-12-22

一、匯出Hbase的表文件到HDFS
--------------------------------------------------------------------------
    1.複製hbase的jar檔案和metrices-core-xxx.jar檔案到hadoop類路徑下.
            $>cd /soft/hbase/lib
            $>ls | grep hbase | cp `xargs` /soft/hadoop/share/hadoop/common/lib
            $>ls | grep metric | cp `xargs` /soft/hadoop/share/hadoop/common/lib

    2.執行hbase-server-VERSION.jar下的MR程式，匯出hbase的資料[TSV檔案]到hdfs中。這個就是hbase庫的資料
        $> cd /soft/hbase/lib
        $> hadoop jar hbase-server-1.2.6.jar export call:calllogs /data/HbaseTableDataout


二、Hbase Bulk Load Hbase大批量資料的遷移 A表-->B空表[可以跨空間]
-------------------------------------------------------------------------
    1.原理
        B是空表，和A的表結構相同
        將A表在HDFS上的資料檔案直接拷貝到B表中，從而使B表擁有和A表相同的檔案

    2.複製hbase的jar檔案和metrices-core-xxx.jar檔案到hadoop類路徑下.
        $>cd /soft/hbase/lib
        $>ls | grep hbase | cp `xargs` /soft/hadoop/share/hadoop/common/lib
        $>ls | grep metric | cp `xargs` /soft/hadoop/share/hadoop/common/lib

    3.hbase上建B表
        $hbase> create 'ns1:mytable1' , 'f1'. 'f2'

    4.通過hbase的completebulkload命令實現TSV資料載入到B庫的ns1:mytable表中
        $> cd /soft/hbase/lib
        $> hadoop jar hbase-server-1.2.6.jar completebulkload  /hbase/data/call/calllogs/4471f0b068b2b425fdec957d25d4ab02 ns1:mytable1
        [/hbase/data/call/calllogs/4471f0b068b2b425fdec957d25d4ab02 就是A表在hbase中的資料路徑]


三、MySQL資料通過MR匯入到Hbase表中
-------------------------------------------------------------
    1.新增依賴

<?xml version="1.0" encoding="UTF-8"?>
       <project xmlns="http://maven.apache.org/POM/4.0.0"
                xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
           <modelVersion>4.0.0</modelVersion>

           <groupId>groupId</groupId>
           <artifactId>TestHbase</artifactId>
           <version>1.0-SNAPSHOT</version>

           <dependencies>

               <dependency>
                   <groupId>org.apache.hadoop</groupId>
                   <artifactId>hadoop-client</artifactId>
                   <version>2.7.3</version>
               </dependency>

               <dependency>
                   <groupId>org.apache.hadoop</groupId>
                   <artifactId>hadoop-yarn-common</artifactId>
                   <version>2.7.3</version>
               </dependency>

               <dependency>
                   <groupId>org.apache.hadoop</groupId>
                   <artifactId>hadoop-yarn-server-resourcemanager</artifactId>
                   <version>2.7.3</version>
               </dependency>

               <dependency>
                   <groupId>junit</groupId>
                   <artifactId>junit</artifactId>
                   <version>4.11</version>
               </dependency>


               <dependency>
                   <groupId>mysql</groupId>
                   <artifactId>mysql-connector-java</artifactId>
                   <version>5.1.17</version>
               </dependency>
               <dependency>
                   <groupId>org.apache.hbase</groupId>
                   <artifactId>hbase-server</artifactId>
                   <version>1.2.6</version>
               </dependency>
               <dependency>
                   <groupId>org.apache.hbase</groupId>
                   <artifactId>hbase-client</artifactId>
                   <version>1.2.6</version>
               </dependency>
               <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-auth -->
               <dependency>
                   <groupId>org.apache.hadoop</groupId>
                   <artifactId>hadoop-auth</artifactId>
                   <version>2.7.3</version>
               </dependency>


           </dependencies>


       </project>


    2.主函式App

 package hbase;

        import org.apache.hadoop.conf.Configuration;
        import org.apache.hadoop.hbase.client.Put;
        import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;
        import org.apache.hadoop.io.NullWritable;
        import org.apache.hadoop.mapreduce.Job;
        import org.apache.hadoop.mapreduce.lib.db.DBConfiguration;
        import org.apache.hadoop.mapreduce.lib.db.DBInputFormat;

        /**
         * AppMian
         */
        public class MyApp {

            public static void main(String [] args)
            {
                try {
                    Configuration conf = new Configuration();
                    Job job = Job.getInstance(conf);
                    job.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE,"ns1:customers");
                    job.getConfiguration().set(TableOutputFormat.QUORUM_ADDRESS,"s100:2181:/hbase");

                    //設定job
                    job.setJobName("WC");
                    job.setJarByClass(MyApp.class);


                    //配置資料庫資訊
                    DBConfiguration.configureDB(job.getConfiguration(),
                            "com.mysql.jdbc.Driver",
                            "jdbc:mysql://192.168.43.1:3306/mydata",
                            "mysql",
                            "mysql");


                    //配置資料輸入源
                    DBInputFormat.setInput(job, MyDBWritable.class,
                            "select id,name,age from myhbase ",
                            "select count(*) from myhbase");

                    //設定輸出路徑--輸出到Hbase
                    job.setOutputFormatClass(TableOutputFormat.class);
                    //設定map和reduce
                    job.setMapperClass(MyMapper.class);
                    //設定任務屬性
                    job.setNumReduceTasks(0);
                    job.setOutputKeyClass(NullWritable.class);
                    job.setOutputValueClass(Put.class);
                    //
                    job.waitForCompletion(true);

                } catch (Exception e) {
                    e.printStackTrace();
                }

            }
        }


    3.自定義Writable

package hbase;

        import org.apache.hadoop.io.Writable;
        import org.apache.hadoop.mapreduce.lib.db.DBWritable;

        import java.io.DataInput;
        import java.io.DataOutput;
        import java.io.IOException;
        import java.sql.PreparedStatement;
        import java.sql.ResultSet;
        import java.sql.SQLException;

        public class MyDBWritable implements Writable,DBWritable {

          private int id = 0;
          private String name;
          private int age;

          public int getId() {
              return id;
          }

          public void setId(int id) {
              this.id = id;
          }

          public String getName() {
              return name;
          }

          public void setName(String name) {
              this.name = name;
          }

          public int getAge() {
              return age;
          }

          public void setAge(int age) {
              this.age = age;
          }

          //資料庫的序列化,將資料寫入stats表中對用的第1,2列資料中
          public void write(PreparedStatement ppst) throws SQLException {
        //        ppst.setString(1, word);
        //        ppst.setInt(2,count);
          }

          //資料庫的反序列化，從DB中讀取資料,從words表中讀取第2,3列的資料
          public void readFields(ResultSet rs) throws SQLException {
              id = rs.getInt(1);
              name = rs.getString(2);
              age = rs.getInt(3);
          }

          //序列化和反序列化
          public void write(DataOutput out) throws IOException {

              out.writeInt(id);
              out.writeUTF(name);
              out.writeInt(age);
          }


          public void readFields(DataInput in) throws IOException {
              id = in.readInt();
              name = in.readUTF();
              age = in.readInt();
          }
        }



    4.Map類

 package hbase;

        import org.apache.hadoop.hbase.client.Put;
        import org.apache.hadoop.hbase.util.Bytes;
        import org.apache.hadoop.io.IntWritable;
        import org.apache.hadoop.io.LongWritable;
        import org.apache.hadoop.io.NullWritable;
        import org.apache.hadoop.io.Text;
        import org.apache.hadoop.mapreduce.Mapper;

        import java.io.IOException;

        /**
         * Mapper類
         */
        public class MyMapper extends Mapper<LongWritable, MyDBWritable, NullWritable,Put> {

            @Override
            protected void map(LongWritable key, MyDBWritable value, Context context) throws IOException, InterruptedException {

                int id = value.getId();
                String name = value.getName();
                int age = value.getAge();
                Put put = new Put(Bytes.toBytes(id));

                put.add(Bytes.toBytes("f1"), Bytes.toBytes("id"), Bytes.toBytes(id));
                put.add(Bytes.toBytes("f1"), Bytes.toBytes("name"), Bytes.toBytes(name));
                put.add(Bytes.toBytes("f1"), Bytes.toBytes("age"), Bytes.toBytes(age));

                context.write(NullWritable.get(), put);
            }
        }

大資料之hbase（五） --- 匯出Hbase的表文件到HDFS，Hbase Bulk Load Hbase，MySQL資料通過MR匯入到Hbase表中

一、匯出Hbase的表文件到HDFS -------------------------------------------------------------------------- 1.複製hbase的jar檔案和metrices-core-xxx.jar檔案到

大資料之Spark（五）--- Spark的SQL模組，Spark的JDBC實現，SparkSQL整合MySQL，SparkSQL整合Hive和Beeline

一、Spqrk的SQL模組 ---------------------------------------------------------- 1.該模組能在Spack上執行Sql語句 2.可以處理廣泛的資料來源 3.DataFrame --- RDD --- tabl

大資料之Spark（八）--- Spark閉包處理，部署模式和叢集模式，SparkOnYarn模式，高可用，Spark整合Hive訪問hbase類載入等異常解決，使用spark下的thriftserv

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,function,dep Op

Druid學習之路（五）Druid的資料攝取任務型別

作者：Syn良子出處：https://www.cnblogs.com/cssdongl/p/9885534.html 轉載請註明出處 Druid的資料攝取任務型別 Druid支援很多種型別的資料攝取任務.任務通過CURL POST的方式提交到Overlord節點然後分配給middle manager

大資料之Spark（四）--- Dependency依賴，啟動模式，shuffle，RDD持久化，變數傳遞，共享變數，分散式計算PI的值

一、Dependency:依賴:RDD分割槽之間的依存關係 --------------------------------------------------------- 1.NarrowDependency: 子RDD的每個分割槽依賴於父RDD的少量分割槽。 |

大資料之Spark（三）--- Spark核心API，Spark術語，Spark三級排程流程原始碼分析

一、Spark核心API ----------------------------------------------- [SparkContext] 連線到spark叢集,入口點. [HadoopRDD] extends RDD 讀取hadoop

大資料之Spark（二）--- RDD，RDD變換，RDD的Action，解決spark的資料傾斜問題，spark整合hadoop的HA

一、Spark叢集執行 ------------------------------------------------------- 1.local //本地模式 2.standalone //獨立模式 3.yarn //yarn模式

大資料之Spark（一）--- Spark簡介，模組，安裝，使用，一句話實現WorldCount，API，scala程式設計，提交作業到spark叢集，指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

大資料之scala（四） --- 模式匹配，變數宣告模式，樣例類，偏函式，泛型，型變，逆變，隱式轉換，隱式引數

一、模式匹配:當滿足case條件，就終止 ---------------------------------------------------------- 1.更好的switch var x = '9'; x match{ case

大資料之scala（三） --- 類的檢查、轉換、繼承，檔案，特質trait，操作符，apply，update，unapply，高階函式，柯里化，控制抽象，集合

一、類的檢查和轉換 -------------------------------------------------------- 1.類的檢查 isInstanceOf -- 包括子類 if( p.isInstanceOf[Employee]) {

大資料之scala（二） --- 對映，元組，簡單類，內部類，物件Object，Idea中安裝scala外掛，trait特質[介面]，包和包的匯入

一、對映<Map> ----------------------------------------------------- 1.建立一個不可變的對映Map<k,v> ==> Map(k -> v) scala> val map

大資料之scala（一） --- 安裝scala，簡單語法介紹，條件表示式，輸入和輸出，迴圈，函式，過程，lazy ，異常，陣列

一、安裝和執行Scala解釋程式 --------------------------------------------- 1.下載scala-2.11.7.msi 2.管理員執行--安裝 3.進入scala/bin,找到scala.bat,管理員執行，進入scala命

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集，產生一個推斷函式

大資料之Spark（六）--- Spark Streaming介紹，DStream，Receiver，Streamin整合Kafka，Windows，容錯的實現

一、Spark Streaming介紹 ----------------------------------------------------------- 1.介紹是spark core的擴充套件，針對實時資料的實時流處理技術具有可擴充套件、高吞吐量、

人工智慧修煉之路（五）--2018年T11資料智慧峰會

傳統資料價值鏈：資料來源》資料加工聚集平臺》資料分析和建模》資料生產化工程化》資料產品智慧應用。資料智慧時代的資料價值鏈：配置資料採集資料校驗，機器學習，機器資源管理，分析工具，特徵提取，過程管理工具。突破：智慧手機數：1377276480臺；物聯網裝置： 87000

大資料之storm（一） --- storm簡介，核心元件，工作流程，安裝和部署，電話通訊案例分析，叢集執行，單詞統計案例分析，調整併發度

一、storm簡介 --------------------------------------------------------- 1.開源，分散式，實時計算 2.實時可靠的處理無限資料流，可以使用任何語言開發 3.適用於實時分析，線上機器學習

大資料之Spark（八）--- Spark閉包處理，Spark的應用的部署模式，Spark叢集的模式，啟動Spark On Yarn模式，Spark的高可用配置

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,fun

大資料之mongodb --> （1）在ubuntu上安裝mongodb

1.安裝 MongoDB。 1.為軟體包管理系統匯入公鑰。 Ubuntu 軟體包管理工具為了保證軟體包的一致性和可靠性需要用 GPG 金鑰檢驗軟體包。使用下列命令匯入 MongoDB 的 GPG 金鑰（ MongoDB public GPG Key h

大資料WEB階段（五）jQuery

jQuery 一、概述什麼是jQuery？ jQuery是一個寫的更少，但做的更多的輕量級的 javaScript函式庫。 jQuery的優勢？可以簡化JavaScript程式

python基本資料型別之字串（五）

python基本資料型別之字串（五）遍歷與查詢 python中的字串屬於可迭代物件，通過一些方法可以遍歷字串中的每一個字元。而查詢的方法主要有兩個：find與index。 1、字串的遍歷字串的遍歷可以使用for迴圈。 s = 'goodhappynewyear' li = [] for item

大資料之hbase（五） --- 匯出Hbase的表文件到HDFS，Hbase Bulk Load Hbase，MySQL資料通過MR匯入到Hbase表中

相關推薦