大資料入門教程系列之Hive內建函式及自定義函式

阿新 • • 發佈：2018-11-19

本篇文章主要介紹Hive內建函式以及自定義UDF函式和UDFT函式，自定義UDF函式通過一個國際轉換中文的例子說明。

操作步驟：

①、準備資料和環境

②、演示Hive內建函式

③、自定義UDF函式編寫、演示

詳細步驟：

一、準備資料和環境（需啟動Hadoop）

注：環境和程式基於上一篇java api操作hive：大資料入門教程系列之Hive的Java API 操作

ctrl+l可以清楚視窗操作的命令

1、建立表

create table teacher(
id int,
name string,
sex string,
age int,
nationality string
)
row format delimited fields terminated by ',';

2、準備資料

vim teacher.txt

1,zhangsan,man,23,CN
2,lisi,woman,33,HK
3,wangwu,man,18,BRA

3、插入資料，執行插入資料有點慢，等待即可

load data local inpath '/home/hadoop/teacher.txt' into table teacher;

插入後查詢：

select * from teacher;

二、hive內建函式

1、使用如下命令檢視當前hive版本支援的所有內建函式

show functions;

2、可以使用如下命令檢視某個函式的使用方法及作用，比如檢視 and函式

desc function and;

3、如果想要檢視更為詳細的資訊加上extended引數

desc function extended and;

4、演示小寫轉大寫，查詢老師把名字轉大寫

 select id,upper(name),sex,age from teacher;

三、自定義UDF函式

雖然hive中為我們提供了很多的內建函式，但是在實際工作中，有些情況下hive提供的內建函式無法滿足我們的需求，就需要我們自己來手動編寫，所以就有了自定義函式 UDF。

UDF分為三種，分別如下

(1).UDF(User-Defined-Function)，一進一出（輸入一行，輸出一行），比如：upper()、lowser()等。

(2).UDAF(User-Defined Aggregation Funcation)，多進一出（輸入多行，輸出一行），比如：avg()、sum()等。

(3).UDTF(User-Defined Table-Generating Functions)，一進多出（輸入一行，輸出多行），比如：collect_set()、collect_list()等。

官方文件：https://cwiki.apache.org/confluence/display/Hive/HivePlugins

1、使用自定義函式需要引入hive-exec的依賴

<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-exec</artifactId>
    <version>2.3.0</version>
</dependency>

2、UDF程式設計模型：

(1).繼承 org.apache.hadoop.hive.ql.exec.UDF

(2).實現 evaluate() 方法

實現需求：自定義UDF函式，轉換國籍為中文

比如：輸入CN，輸出中國大陸

程式碼如下：

package udf;

import org.apache.hadoop.hive.ql.exec.UDF;

import java.util.HashMap;
import java.util.Map;
import org.apache.hadoop.io.Text;

/**
 * UDF自定義函式國籍轉換
 * Created by zhoujh on 2018/10/18.
 */
public class UDFNationality extends UDF {

    //我們要實現的業務邏輯非常簡單，就是傳過來一個英文的國家名，然後返回一箇中文，它們的對映關係肯定事先就定義好了，
     //不可能等到呼叫的時候了才建立對映關係。
    public static Map<String,String> nationMap=new HashMap<String,String>();
    static {
        nationMap.put("CN", "中國");
        nationMap.put("HK", "香港");
        nationMap.put("BRA", "巴西");
    }

    //之所以使用Text作為返回值是因為這個方法是要在HDFS上執行的，HDFS上沒有String型別，取而代之的是Text，因此我們需要使用Text作為返回值。
    Text text=new Text();
    //重寫UDF，就是要寫evaluate方法，注意方法名一定得是這個。這個方法是非常靈活的，引數可以有多個，返回值如果想要多個的話，可以封裝成一個物件。
    public Text evaluate(Text nation){
        //先得到傳過來的英文的國家名
        String nation_e=nation.toString();
        //根據英文名得到中文名
        String nation_str=nationMap.get(nation_e);
        if(nation_str==null){
            //如果得到的值是null，說明沒有對應的對映關係，我們就輸出預設中國人
            text.set("中國人");
            return text;
        }
        text.set(nation_str);
        return text;
    }
}

3、自定義函式有4種使用方式，下面分別介紹

①、臨時函式，只能在當前客戶端使用

一、將我們剛剛編寫完成的程式碼，打成jar

二、先使用xftp上傳到伺服器，再將jar包上傳到hive

三、把jar新增到hive

add jar /home/hadoop/java-api-hive-1.0-SNAPSHOT.jar;

四、建立函式

create temporary function cvnationality as 'udf.UDFNationality';

五、檢視建立的函式cvnationality

show functions;

六、檢視函式cvnationality的詳細資訊

這裡可以看到你java類裡面的@Description註解我沒寫

七、使用函式

select id,name,sex,age,cvnationality(nationality) from teacher;

②、臨時函式，只能在當前客戶端使用

在$HIVE_HOME下新建目錄auxlib，將jar拷貝到該目錄下，重啟hadoop

建立函式cvnationality

檢視建立的函式，同上

使用函式，效果同上

select id,name,sex,age,cvnationality(nationality) from teacher;

③、永久函式，建立後可以在任意客戶端使用，建議使用

一、上傳jar到hdfs

hadoop fs -put java-api-hive-1.0-SNAPSHOT.jar  /libs

二、建立函式 cvnationality2

create function cvnationality2 as 'udf.UDFNationality' using jar 'hdfs://node1:9000/libs/java-api-hive-1.0-SNAPSHOT.jar';

注意：建立完function之後，通過show functions並沒有看到我們自定義的函式cvnationality2，但是可以使用

三、使用函式，效果同上

 select id,name,sex,age,default.cvnationality2(nationality) from teacher;

④、永久函式，將自定義函式整合到hive原始碼中

使用這種方式需要修改hive的原始碼，整合到hive原始碼後，hive啟動後就可以使用，不用再向hive中註冊函式，相當於一個hive的內建函式。如果公司有自己的大資料框架版本，建議使用這種方式。

一、從官網下載hive原始碼，筆者使用的版本為2.3.0，http://apache.fayea.com/hive/

二、下載後解壓

tar -zxvf apache-hive-2.3.0-src.tar.gz

將自定義UDF函式繼承到Hive原始碼中，需要如下三個步驟

三、上傳檔案

把GenericUDFHello.java類上傳到如下目錄，並修改包名

四、配置FunctionRegistry類

hive 中有一個非常重要的類FunctionRegistry，我們需要將自己自定義的函式在這個類中配置，引入我們自定義函式類GenericUDFHello

註冊自定義函式類GenericUDFHello，輸入static { 搜尋，在靜態程式碼塊中註冊我們編寫的自定義函式，這裡面都是hive的所有內建函式，新增如下程式碼

五、編譯 Hive 原始碼

cd apache-hive-2.3.0-src

mvn clean package -Phadoop-2,dist -DskipTests

編譯過程教程，請耐心等待，編譯完成後，hive會生成一個壓縮包，解壓配置後就可以使用，hive壓縮包存放的路徑是apache-hive-2.3.0-src/packaging/target

使用函式hello（效果同上）

大資料入門教程系列之Hive內建函式及自定義函式

本篇文章主要介紹Hive內建函式以及自定義UDF函式和UDFT函式，自定義UDF函式通過一個國際轉換中文的例子說明。操作步驟： ①、準備資料和環境 ②、演示Hive內建函式 ③、自定義UDF函式編寫、演示詳細步驟：一、準備資料和

大資料入門教程系列之Hive篇彙總

大資料入門教程系列之Hive篇彙總 1、Hive概述、體系架構、分割槽、桶與傾斜 2、大資料入門教程系列之Hive環境搭建--Linux(Centons7)下配置安裝Hive 3、Hive DDL DML及SQL操作 4、Hadoop2.7.4 編譯支援5種壓縮（Hive壓縮）

大資料入門教程系列之Hive的Java API 操作

Java 想要訪問Hive，需要通過beeline的方式連線Hive，hiveserver2提供了一個新的命令列工具beeline，hiveserver2 對之前的hive做了升級，功能更加強大，它增加了許可權控制，要使用beeline需要先啟動hiverserver2，再使用beeline連線

大資料入門教程系列之Hbase安裝(偽分散式)

本篇文章主要介紹在windows下使用vmware虛擬機器中的Linux(Centons7)下配置安裝Hbase。簡要步驟： ①、下載Hbase解壓包 ②、安裝zookeeper ③、解壓Hbase，配置環境環境 ④、修改Hbase指令碼檔案hbase-env.sh ⑤、修

大資料入門教程系列之Hadoop環境搭建、軟體準備

本篇文章主要介紹大資料入門教程環境搭建所需要的軟體、環境配置等，為後面的學習做準備。完成目標： 1、安裝VMware及新建虛擬機器安裝VMware及新建虛擬機器 2、VMware中安裝centons7 虛擬機器VMware中安裝linux系統CentOS

大資料入門基礎系列之初步認識大資料生態系統圈（博主推薦）

　　不多說，直接上乾貨！　　之前在微信公眾平臺裡寫過大資料入門基礎系列之初步認識hadoop生態系統圈 http://mp.weixin.qq.com/s/KE09U5AbFnEdwht44FGrOA 大資料入門基礎系列之初步認識大資料生態系統圈 1.概述

大資料入門基礎系列之Hadoop1.X、Hadoop2.X和Hadoop3.X的多維度區別詳解（博主推薦）

　　不多說，直接上乾貨！在前面的博文裡，我已經介紹了　　見下面我寫的微信公眾號博文歡迎大家，加入我的微信公眾號：大資料躺過的坑免費給分享同時，大家可以關注我的個人部

Hive 內建函式及自定義函式

1.內建函式使用如下命令檢視當前hive版本支援的所有內建函式 show functions; 部分截圖：可以使用如下命令檢視某個函式的使用方法及作用，比如檢視 upper函式 desc function upper; 如果想要檢

大資料入門（15）hive簡介和配置

1、上傳檔案，解壓到app 下 tar -zxvf 檔案 -C app 2、不配置檔案的情況下啟動：./hive (目錄：/home/admin/app/hive

大資料Hadoop學習系列之Hadoop、Spark學習路線

1 Java基礎：視訊方面：推薦畢老師《畢向東JAVA基礎視訊教程》。學習hadoop不需要過度的深入，java學習到javase，在多執行緒和並行化多多理解實踐即可。書籍方面：推薦李興華的《java開發實戰經典》 2 Linux基礎：視訊方面：（1）馬哥的高薪Linux

大資料調錯系列之hadoop在開發工具控制檯上打印不出日誌的解決方法

（1）在windows環境上配置HADOOP_HOME環境變數（2）在eclipse上執行程式（3）注意：如果eclipse打印不出日誌，在控制檯上只顯示 1.log4j:WARN No appenders could be found

大資料調錯系列之：自己總結的myeclipse連線hadoop會出現的問題

在我們學習或者工作中開始hadoop程式的時候，往往會遇到一個問題，我們寫好的程式需要打成包放在叢集中執行，這無形中在浪費我們的時間，因為程式可以需要不斷的除錯，然後把最終程式放在叢集中即可。為了解決這個問題，現在我們配置遠端連線hadoop，遠端除錯的方法。一段程式如下：獲取更多大資料視訊資料請加QQ群

大資料技術學習筆記之hive框架基礎3-sqoop工具的使用及具體業務分析

一、CDH版本的介紹及環境部署 -》Hadoop的三大發行版本 -》Apache Hadoop -》

大資料技術學習筆記之hive框架基礎2-hive中常用DML和UDF和連線介面使用

一、分割槽表的介紹及使用 -》需求：統計每一天的PV，UV，每一天分析前一天的資料 -》第一種情況：每天的日誌儲存在同一個目錄中 &nbs

大資料技術學習筆記之hive框架基礎1-基本架構及環境部署

一、hive的介紹及其發展 "27.38.5.159" "-" "31/Aug/2015:00:04:37 +0800" "GET /course/view.php?id=27 HTTP/1.1" "303" "440" - "http://www.micro.com/user.php?act

python 大資料入門教程

Python在大資料行業非常火爆近兩年，as a pythonic，所以也得涉足下大資料分析，下面就聊聊它們。 Python資料分析與挖掘技術概述所謂資料分析，即對已知的資料進行分析，然後提取出一些有價值的資訊，比如統計平均數，標準差等資訊，資料分析的資料量可能不會太大，而資料探勘，是指對

大資料與Hadoop系列之壓縮(一)

Hadoop壓縮簡介Hadoop作為一個較通用的海量數椐處理平臺，在使用壓縮方式方面，主要考慮壓縮速度和壓縮檔案的可分割性.所有的壓縮演算法都會考慮時間和空間的權衡，更快的壓縮和解壓縮速度通常會耗費更多的交間（壓縮比較低）例如：通過gzip命令壓縮資料時，使用者可以設定不同的

小多的Android入門教程系列---之1---貪吃蛇改進版

Android_Tutorial-Advanced_Snake 小多的Android入門教程系列之1 貪吃蛇改進版背景 android 2.3.3 SDK 10 Eclipse 3.5.1 反饋時間

大資料開發實戰系列之電信客服(1)

大資料實戰開發系列，以實戰為主，輔以一些基礎知識，關於電信客服，在網上也有很多的資料，這裡我自然會去參考網上的資料，程式的整體設計是在今天開始的，老夫儘量在本週末錢結束這個電信客服的程式編寫。因為我也是一個學習者，所以在程式編寫過程中難免會存在問題，有問題還請大家指出，有則改之，無則加勉。大家共同進步。本教程

Angularjs系列之常用內建指令

2.4.1. 常用內建指令常用內建指令有一些獨特的性質。雖然可用表示式生成HTML程式碼從而與它們等效，但這些做法都是不推薦的。 ng-href 當使用當前作用域中的屬性動態建立URL時，應該用ng-href代替href。Angul

大資料入門教程系列之Hive內建函式及自定義函式

操作步驟：

詳細步驟：

一、準備資料和環境（需啟動Hadoop）

二、hive內建函式

三、自定義UDF函式

相關推薦