大表資料過濾查詢很慢

阿新 • • 發佈：2020-12-21

一、問題描述

查詢的語句類似如下：

select * from table_name where xxx='yyy' limit 10;

當前的hive表儲存格式是orc格式，執行引擎是tez，並行度也已經調整到幾十了，但是在執行這個sql的時候，發現一直卡住，執行不成功。

二、問題現象 and 分析：

現象：當前的查詢卡住。
分析：
1、檢視hiveserver2.log檔案，觀察當前的sql執行情況，發現當前處理sql的執行緒，一直在讀取資料檔案，如下：

看這個樣子，當前的sql自己就已經在scan資料了，完全沒有走mr任務，完全是本地就直接讀取了,相當於全表掃描，這種不慢才怪了。

2、通過jstack檢視執行緒的執行過程

3、通過explain分析執行計劃

三、問題解決

通過調整如下的引數：

hive.fetch.task.conversion

Some select queries can be converted to a single FETCH task, minimizing latency. Currently the query should be single sourced not having any subquery and should not have any aggregations or distincts (which incur RS – ReduceSinkOperator, requiring a MapReduce task), lateral views and joins.

Supported values are none, minimal and more.
0. none: Disable hive.fetch.task.conversion
1. minimal: SELECT *, FILTER on partition columns (WHERE and HAVING clauses), LIMIT only
2. more: SELECT, FILTER, LIMIT only (including TABLESAMPLE, virtual columns)

這個配置會嘗試將query轉換為一個fetch任務；

預設為more，將其改為none再執行上邊的sql，就會提交到yarn上執行;

hive.fetch.task.conversion.threshold

Input threshold (in bytes) for applying hive.fetch.task.conversion. If target table is native, input length is calculated by summation of file lengths. If it's not native, the storage handler for the table can optionally implement the org.apache.hadoop.hive.ql.metadata.InputEstimator interface. A negative threshold means hive.fetch.task.conversion is applied without any input length threshold.
預設為1073741824 (1 GB)

本文借鑑：
| https://www.cnblogs.com/barneywill/p/10109217.html

大表資料過濾查詢很慢

一、問題描述查詢的語句類似如下： select * from table_name where xxx=\'yyy\' limit 10; 當前的hive表儲存格式是orc格式，執行引擎是tez，並行度也已經調整到幾十了，但是在執行這個sql的時候，發現一直卡住，執

資料量很大，分頁查詢很慢，有什麼優化方案?

準備工作一般分頁查詢使用子查詢優化使用 id 限定優化使用臨時表優化關於資料表的id說明

Mysql查詢很慢卡在sending data的原因及解決思路講解

因為編寫了一個Python程式，密集的操作了一個Mysql庫，之前資料量不大時，沒發現很慢，後來越來越慢，以為只是資料量大了的原因，但是後來慢到不能忍受了，查了半天，索引能用的都用上了，執行一次還是要3到4秒，不能

MySQL-線上處理大表資料 & 線上修改大表的表結構

文章目錄官方文件概述示例大表資料的分批處理修改大表的表結構方案一 : 從表修改，主從切換方案二：pt-online-schema-change

倒序查詢_mysql 大表分頁查詢翻頁優化方案

技術標籤：倒序查詢 mysql分頁查詢是先查詢出來所有資料，然後跳過offset，取limit條記錄，造成了越往後的頁數，查詢時間越長

查詢大量資料速度很慢_為什麼查詢資料不多,卻慢的離譜,在我請教了隔壁新來的阿里大佬後...

技術標籤：查詢大量資料速度很慢這篇文章主要記錄，造成查詢數量不大的情況下，造成查詢緩慢的原因，以及相應的解決方法。

MySQL 之 LOAD DATA INFILE 快速匯入資料 (單表資料很大)

SELECT INTO OUTFILE LOAD DATA INFILE mysqlimport SELECT INTO OUTFILE > help select; Name: \'SELECT\' Description:

資料庫（二）自動增長列，新增表資料，修改資料，刪除資料，where條件，%萬用字元，is，查詢資料(查詢全表，指定列查詢，排序查詢)，聚合查詢（平均、最大、最小、行數、求和）

通過選中表進行匯入、到處操作進行資料表備份自動增長列：資料表的主鍵應具備唯一性，每次寫入不同主鍵值會比較麻煩，使用自動增長列替換主鍵值是常用的方式

看看PHP大神是如何對900W+的資料表的SQL 查詢優化分析的

有一張財務流水錶，未分庫分表，目前的資料量為9685695，分頁查詢使用到了limit，優化之前的查詢耗時16 s 938 ms (execution: 16 s 831 ms, fetching: 107 ms)，按照下文的方式調整SQL後，耗時347 ms (execution: 16

【大資料面試】【數倉專案】其他知識點：行為數倉、業務數倉、拉鍊表、即席查詢

一、使用者行為數倉. 1、數倉分層架構圖要會畫 2、埋點行為資料基本格式(基本欄位)

Dynamics 365 OP 表資料太大導致實體檢視載入太慢或SQL Server超時

之前遇到過幾次CRM實體表裡的資料太大導致預設檢視載入太慢（超過一分鐘）或者直接報錯SQL Server超時，排除網路和伺服器問題後，基本確定是資料庫sql查詢超時導致，通過給資料庫表加索引解決，這裡記錄下我的分析和

MySQL千萬級大資料SQL查詢優化知識點總結

1.對查詢進行優化，應儘量避免全表掃描，首先應考慮在 where 及 order by 涉及的列上建立索引。

30個mysql千萬級大資料SQL查詢優化技巧詳解

1.對查詢進行優化，應儘量避免全表掃描，首先應考慮在 where 及 order by 涉及的列上建立索引。

SQL查詢單表資料（一）

本節講述在 DB2 、Oracle 、 PostgreSQL、mysql 、 SQL Server資料庫中基本的 select 查詢單表資料語句

efcore 跨表查詢，實現一個介面內查詢兩個不同資料庫裡各自的表資料

　　最近有efcore跨庫查詢的需求，研究了下colder框架裡檔案的分庫實現，發現並不能完全實現一個介面下的跨庫查詢請求，只能滿足一個業務層構造指定的唯一一個資料庫訪問介面。

大資料實戰（二十六）：電商數倉（十九）之使用者行為資料採集（十九）數倉搭建之DWD層（一）DWD層啟動表資料解析

0 簡介對ODS層資料進行清洗（去除空值，髒資料，超過極限範圍的資料，行式儲存改為列儲存，改壓縮格式）。

用三種解決方案優化MySQL兩千萬資料大表

問題概述使用阿里雲rds for MySQL資料庫（就是MySQL5.6版本），有個使用者上網記錄表6個月的資料量近2000萬，保留最近一年的資料量達到4000萬，查詢速度極慢，日常卡死。嚴重影響業務。

如何基於mybatis框架查詢資料庫表資料並列印

一、需求說明使用mybatis框架查詢資料庫user表資料並列印到控制檯上二、資料庫資料準備

C:\ProgramData\Microsoft\Crypto\RSA\MachineKeys 資料夾體積很大

現象：大量呼叫.p12證書時，C:\\ProgramData\\Microsoft\\Crypto\\RSA\\MachineKeys資料夾變得越來越大。

du -sh 如何找到最大的資料夾_Linux上查詢最大檔案的 3 種方法

技術標籤：du -sh 如何找到最大的資料夾linux 檔案查詢linux 查詢linux查詢 ☞ 程式設計師進階架構師必備資源免費送 ☜