大資料（二十一）：hive查詢語句

阿新 • • 發佈：2018-11-10

一、查詢語句

1.基本語法

SELECT [ALL|DISTINCT] select_expr,select_expr,...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list|[DISTRIBUTE BY col_list][SORT BY col_list]]
[LIMIT number]

SQL語句大小寫不敏感
SQL可以寫在一行或者多行
關鍵字不能被縮寫也不能分行
各句子一般要分行寫
使用縮排來提高語句的可讀性

2.Where語句

使用WHERE子句，可以將不滿足條件的行過濾掉。where子句緊隨FROM子句。

where語句中的比較運算子

操作符	支援的資料型別	描述
A=B	基本資料型別	如果A等於B則返回TRUE，反之返回FALSE
A<=>B	基本資料型別	如果A和B都為NULL，則返回TRUE，其他的和等號（=）操作符的結果一直，如果任意一位Null則結果為Null
A<>B,A!=B	基本資料型別	A或B為Null則返回Null；如果A不等於B，則返回TRUE，反之返回FALSE
A<=B	基本資料型別	A或B為Null，則返回Null；如果A小於等於B，則返回TRUE，反之返回FALSE
A>=B	基本資料型別	A或B為Null，則返回Null；如果A大於等於B，則返回TRUE，反之返回FALSE
A [NOT] BETWEEN B AND C	基本資料型別	如果A,B或者C任一為Null，則返回Null。如果A的值大於等於B而且小於等於C，則結果為TRUE，反之為FALSE。如果使用NOT關鍵字則可以達到相反的效果。
A IS NULL	所有資料型別	如果不等於Null，則返回TRUE，反之返回FALSE
A IS NOT NULL	所有資料型別	如果A本等於Null，則返回TRUE，反之返回FALSE
IN(數值1，數值2)	所有資料型別	使用IN運算顯示列表中的值
A [NOT] LIKE B	STRING型別	B是一個SQL下的簡單正則表示式，如果A與其匹配的話，則返回TRUE；反之返回FALSE。B的表示式說明如下：'x%'表示A必須以字母x開頭，'%x'表示A必須以字母x結尾，而'%x%'表示A包含字母x，可以是任何位置。如果使用NOT則可以達到反效果
A RLIKE B,A REGEXP B	STRING型別	B是一個正則表示式，如果A與其匹配，則返回TRUE；反之返回FALSE。匹配使用的是JDK中的正則表示式介面實現的，因為正則也依據其中的規則。

使用Like運算選擇類似的值
選擇條件可以包換字元或者數字：%代表0個或者多個字元，_表示一個字元
RLIKE子句是HIVE中這個功能的一個擴充套件，其可以通過JAVA的正則表示式這個更強大的語言來指定匹配條件。

3.邏輯運算子

操作符	含義
AND	邏輯並
OR	邏輯或
NOT	邏輯否

4.Group by語句

GROUP BY語句通常會和聚合函式一起使用，按照一個或者多個列隊結果進行分組，然後對每個組執行聚合操作。

5.Having語句

Where針對表中的列發揮作用，查詢資料；having針對查詢結果中的列發揮作用，篩選資料。
where後面不能寫分組函式，而having後面可以使用分組函式
having只用於group by分組統計語句

二、join連線

Hive支援通常的SQLJOIN語句，但是隻支援等值連線，不支援非等值連線。

JOIN ON：內連線只有進行連線的兩個表中都存在與連線條件相匹配的資料才會被保留下來。
LEFT JOIN ON：左外連線JOIN操作符左邊表中符合Where子句的所有記錄將會被返回。
RIGHT JOIN ON：右外連線JOIN操作符右邊表中符合WHERE子句的所有記錄將會被返回。
FULL JOIN ON：滿外連線將會返回所有表中符合where語句條件的所有記錄。如果任一表的指定欄位滿意符合條件的值的話，那麼就使用Null代替。

三、排序

1.全域性排序

Order By：全域性排序，只會產生一個MapReduce

ASC表示升序（預設）
DESC表示降序
ORDER BY子句在SELECT語句的結尾
例項

select * from emp order by sal desc;

2.MapReduce內部排序（Sort By）

設定reduce個數

set mapreduce.job.reduces=3;

查詢例項

select * from emp sort by empno desc;

查詢並將結果匯入到檔案中

insert overwrite local directory '/opt/datas/sortby' select * from emp sort by deptno desc;

3.分割槽排序（Distribute By）

Distribute By：類似MapReduce中partition，進行分割槽，結合sort by使用，Hive要求Distribute By要寫在Sort by語句之前。

對於Distribute By進行測試，一定要分配多reduce進行處理，否則無法看見Distribute By的效果。

insert overwrite local directory '/opt/dates/distribute' select * from emp distribute by deptno sort by empno desc;

3.Cluster By

當Distribute By和sorts by欄位相同的時候，可以使用Cluster By方式。

Cluster By除了具有Distribute By的功能之外還具有sort by的功能。但是排序只能是倒序排序，不能指定排序規則。

select * from emp cluster by deptno;
select * from emp distribute by deptno sort by deptno;

這兩種排序方式是等價的

大資料（二十一）：hive查詢語句

一、查詢語句 1.基本語法 SELECT [ALL|DISTINCT] select_expr,select_expr,... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_lis

大資料（二十五）：Sqoop的介紹和安裝

一、Sqoop簡介 Sqoop是一種旨在有效的Hadoop和關係型資料庫等結構化資料儲存之間傳輸大量資料的工具。Sqoop的原理就是將匯入或者匯出命令翻譯成mapreduce程式來實現。在翻譯出的mapreduce中主要就是對inputfor

大資料（二十四）：資料傾斜優化、並行執行、嚴格模式、JVM重用、執行計劃

一、資料傾斜優化 1.合理設定Map數量 1.通常情況下，作業會通過input的目錄產生一個或者多個map任務主要的決定因素有：input的檔案總個數，input的檔案大小，叢集

大資料（二十六）：Sqoop的import、export命令和命令指令碼

一、sqoop匯入命令（import）在Sqoop中，“匯入”概念指：從非大資料叢集（RDBMS）向大資料叢集（HDFS，HIVE，HBASE）中傳輸資料。 1.在MySql中新建一張表並插入一些資料 create&nb

大資料（二十七）：Sqoop常用命令和公用引數

一、常用命令列舉命令類說明 import ImportTool 將資料匯入到叢集 export ExportTool

大資料（二十九）：kafka簡介、架構、原理

一、kafka是什麼在流式計算中，kafka一般用來快取資料，storm通過消費kafka的資料進行計算。 1.Apache kafka是一個開源的訊息系統，由scala寫成，是由Apache軟體基金會開發的一個開源訊息系統專案。 2.kafka最初始由Linkedi

Java學習筆記（二十一）：類型轉換和instanceof關鍵字

方法 png true feed out 實例 strong 運算符 nbsp 基本數據類型轉換：自動類型轉換：把大類型的數據賦值給大類型的變量（此時的大小指的是容量的範圍） 1 byte b = 12; //byte是一個字節 2 int i = b; //i

Android開發實戰（二十一）：淺談android:clipChildren屬性

.cn viewpage port 部分 lap ole 有一個默認版本原文:Android開發實戰（二十一）：淺談android:clipChildren屬性實現功能： 1、APP主界面底部模塊欄 2、ViewPager一屏多個界面顯示 3、........

java基礎學習總結（二十一）：自己寫一個java.lang.reflect.Proxy代理的實現

動態代理裡面用到了一個類就是java.lang.reflect.Proxy，這個類是根據代理內容為傳入的介面生成代理用的。本文就自己寫一個Proxy類出來，功能和java.lang.reflect.Proxy一樣，傳入介面、代理內容，生成代理。

通證經濟大局觀（二十一）：價值生產率與供給、需求

價值是個主觀的東西，一個東西對你有效用，你才覺得有價值。對應於供給和需求來說，那就是有人用，也就是有需求的供給才是有價值的供給。傳統經濟裡的物品和勞務大多帶有“原子”屬性，你用了別人就沒法用，或者是你用的時候別人就沒辦法用，比如一個蘋果，你吃了別人就沒辦法吃；一個座位你坐了，別人就沒辦法坐。所

搭建自己的部落格（二十一）：通過django表單實現登入註冊

1、變化的部分 2、上程式碼: {# 引用模板 #} {% extends 'base.html' %} {% load staticfiles %} {% block header_extends %} <link rel="stylesheet" h

演算法題（二十一）：回溯法解決矩陣路徑問題

題目描述請設計一個函式，用來判斷在一個矩陣中是否存在一條包含某字串所有字元的路徑。路徑可以從矩陣中的任意一個格子開始，每一步可以在矩陣中向左，向右，向上，向下移動一個格子。如果一條路徑經過了矩陣中的某一個格子，則之後不能再次進入這個格子。例如 a b c e s f c s a d e

機器學習筆記（二十一）：TensorFlow實戰十三（遷移學習）

1 - 引言越複雜的神經網路，需要的訓練集越大，ImageNet影象分類資料集有120萬標註圖片，所以才能將152層的ResNet的模型訓練到大約96.%的正確率。但是在真正的應用中，很難收集到如此多的標註資料。即使收集到也需要花費大量人力物力來標註。並且即使有了大量的資料集，要訓練一

Java併發（二十一）：執行緒池實現原理 Java併發（十八）：阻塞佇列BlockingQueue Java併發（十八）：阻塞佇列BlockingQueue Java併發程式設計：執行緒池的使用

一、總覽執行緒池類ThreadPoolExecutor的相關類需要先了解：（圖片來自：https://javadoop.com/post/java-thread-pool#%E6%80%BB%E8%A7%88） Executor：位於最頂層，只有一個 execute(Runnab

Java併發（二十一）：執行緒池實現原理

Java併發（二十一）：執行緒池實現原理一、總覽執行緒池類ThreadPoolExecutor的相關類需要先了解：（圖片來自：https://javadoop.com/post/java-thread-pool#%E6%80%BB%E8%A7%88） E

opencv學習（二十一）：圓檢測

檢測原理：參考連結：https://www.cnblogs.com/ssyfj/p/9275977.html#一houghcircles方法

linux系列（二十一）：chmod命令

1、命令格式 chmod [-cfvR] [--help] [--version] mode file 2、命令功能用於改變檔案或目錄的訪問許可權，用它控制檔案或目錄的訪問許可

eos原始碼賞析（二十一）：EOS智慧合約之區塊簽名的天龍八“步”

在上篇文章中我們提到了，由使用者操作會產生各種事務，事務的鏈上執行是由push_transaction來完成的，我們簡單的劃分了下，具體可參考eos原始碼賞析（二十）：EOS智慧合約之push_transaction的天龍八“步” 。我們知道，在區塊生產或者打包

Spring Security（二十一）：6.3 Advanced Web Features

6.3.1 Remember-Me Authentication （記住我的身份驗證） See the separate Remember-Me chapter for information on remember-me namespace configuration.

Spring Boot + Spring Cloud 實現許可權管理系統後端篇（二十一）：服務閘道器（Zuul）

線上演示使用者名稱：admin 密碼：admin 技術背景前面我們通過Ribbon或Feign實現了微服務之間的呼叫和負載均衡，那我們的各種微服務又要如何提供給外部應用呼叫呢。當然，因為是REST API介面，外部客戶端直接呼叫各個微服務是沒有問題的，但出於種種原因，這並不是一個好的選擇。讓客戶端直

大資料（二十一）：hive查詢語句

相關推薦