Flink sql 之微批處理與MiniBatchIntervalInferRule (原始碼分析)

阿新 • • 發佈：2022-01-02

本文原始碼基於flink1.14

平臺使用者在使用我們的flinkSql時經常會開啟minaBatch來優化狀態讀寫

所以從原始碼的角度具體解讀一下miniBatch的原理

先看一下flinksql是如何觸發miniBatch的優化的

主要就是這個Calcite的rule了，來具體看一下

在對應的match方法中

會根據miniBatch的型別判斷，是否需要新增一個Assigner的節點

這個assigner是幹嘛的呢？這個Assinger是一個execNode和視窗的assigner是不一樣的，這裡主要是為了傳送水印的

沒錯，miniBatch攢一批的實現原理就是通過水印，來作為一批的標識

來具體看看

分為處理時間和事件時間

先看看處理時間

邏輯比較簡單，就是當前微批的開始時間大於當前水印，就傳送一個當前的微批的開始時間的水印

然後，事件時間的沒什麼意思，就是水印直接往下游轉發了

接著，攢微批已經將完了，來看下具體聚合運算元怎麼優化微批計算的吧

來看個StreamExecGroupAggregate這個聚合ExecNode的邏輯

既然是execNode來直接看它的translateToPlanInternal（）方法

原來是直接在execNode裡面做了特殊處理，不過也是，每個運算元的優化都不一樣也不太好抽象出來

這裡還是先看看不使用微批的時候是怎麼處理的，然後來對比一下

沒用微批這裡是封裝成了一個KeyedProcessOperator的運算元，裡面傳的aggFunction直接就是一個KeyedProcessFunction

看下具體處理groupAggFunction

這裡沒有開minibatch的邏輯比較簡單

每來一條資料，先讀狀態accState是一個valueState然後，呼叫聚合函式的accumlate來計算，然後用新得到的累加器更新狀態

可以看到這樣做的問題還是比較大的

第一，每一條資料都要讀寫狀態開銷很大

第二，每條資料都要呼叫計算，有很多虛擬函式的呼叫

因此，讓我們看看MIniBatch是如何做的吧

回到上面，我們看到MiniBatch是建立的一個KeyedMapBundleOperator，裡面的引數是MiniBatchGroupAggFunction

看下KeyedMapBundleOperator

先從一個bundle獲取和資料同key的資料，來看下這個bundle是什麼

ok,就是一個本地map，然後走addInput()

來看下MiniBatchGroupAggFunction的addInput方法

其實就是把，來的資料加到map對應key的Value是一個list裡面去了

最後來看當微批攢夠觸發onTrigger會走到finishBundle（）方法

先從buffer獲取每一個key對應的value是一個list

然後讀取狀態state資料

直接for迴圈遍歷微批的資料

然後呼叫聚合函式的accumulate不停計算

最後將計算好的累加器accumulator存到狀態裡面去

是不是很簡單

這樣微批處理就完成了，減少了狀態的頻繁訪問，是一個很不錯的優化

Flink sql 之微批處理與MiniBatchIntervalInferRule (原始碼分析)

本文原始碼基於flink1.14 平臺使用者在使用我們的flinkSql時經常會開啟minaBatch來優化狀態讀寫

Flink sql 之兩階段聚合與 TwoStageOptimizedAggregateRule（原始碼分析）

本文原始碼基於flink1.14 上一篇文章分析了《flink的minibatch微批處理》的原始碼

Flink Sql 之 Calcite Volcano優化器（原始碼解析）

Calcite作為大資料領域最常用的SQL解析引擎，支援Flink , hive, kylin , druid等大型專案的sql解析

Flink sql 之 TopN 與 StreamPhysicalRankRule (原始碼解析)

基於flink1.14的原始碼做解析公司內有很多業務方都在使用我們Flink sql平臺做TopN的計算，今天同事突然問到我，Flink sql 是怎麼實現topN的？

Flink sql 之 join 與 StreamPhysicalJoinRule （原始碼解析）

原始碼分析基於flink1.14 Join是flink中最常用的操作之一，但是如果濫用的話會有很多的效能問題，瞭解一下Flink原始碼的實現原理是非常有必要的

odoo12 修行基礎篇之記錄批處理（七）

客戶需求總是不斷啊... 批處理我們得先有個按鈕啊，加吧，加的過程中就加上了批量處理方式了。

|Flink SQL之維表JOIN

維表是數倉中的一個概念，維表中的維度屬性是觀察資料的角度，在建設離線數倉的時候，通常是將維表與事實表進行關聯構建星型模型。在實時數倉中，同樣也有維表與事實表的概念，其中事實表通常

Python面向物件之多型原理與用法案例分析

本文例項講述了Python面向物件之多型原理與用法。分享給大家供大家參考，具體如下：

JavaScript設計模式之門面模式原理與實現方法分析

本文例項講述了JavaScript設計模式之門面模式原理與實現方法。分享給大家供大家參考，具體如下：

Thinkphp 框架擴充套件之行為擴充套件原理與實現方法分析

本文例項講述了Thinkphp 框架擴充套件之行為擴充套件原理與實現方法。分享給大家供大家參考，具體如下：

PHP設計模式入門之狀態模式原理與實現方法分析

本文例項講述了PHP設計模式入門之狀態模式原理與實現方法。分享給大家供大家參考，具體如下：

批處理！功能富集分析、基因ID轉換、查詢同源基因、SNP註釋一站式服務

看文獻的時候，發現了g:Profiler這個寶藏工具，測試了一下，使用起來超級方便、好用，一定要分享給大家~

《原神攻略》絕緣之旗印效果與實戰傷害分析

《原神》的絕緣之旗印是一套聖遺物裝備，那麼這套聖遺物有什麼效果，請看下面由“小姐姐別跑啊”帶來的《原神》絕緣之旗印效果與實戰傷害分析，一起來看看吧。

批量複製、安裝和設定電腦軟體的批處理指令碼程式原始碼-2022年1月6日

批量複製、安裝和設定電腦軟體的批處理指令碼程式原始碼-2022年1月6日 https://www.autoahk.com/archives/39241

[PyTorch 學習筆記] 8.1 影象分類簡述與 ResNet 原始碼分析

本章程式碼：https://github.com/zhangxiann/PyTorch_Practice/blob/master/lesson8/resnet_inference.py

ArrayList 與LinkedList 原始碼分析，效率比較

ArrayList 與LinkedList 原始碼分析，比較 ArrayList ， LinkedList都是 List介面的實現類， ArrayList 底層是一個Object陣列， LinkedList是一個雙向連結串列，他們都是執行緒不安全的

Django框架之drf 之一 [restful規範 APIview原始碼分析 Request類分析序列化元件 ]

Django框架drf之 restful規範 APIview原始碼分析 Request類分析序列化元件一、restful規範

Java原始碼分析:Guava之不可變集合ImmutableMap的原始碼分析

一、案例場景遇到過這樣的場景，在定義一個static修飾的Map時，使用了大量的put()方法賦值，就類似這樣——

Postgresql psql檔案執行與批處理多個sql檔案操作

新建一個批處理檔案batch.sql \\encoding UTF8; \\cd C:/Gmind/ddl \\set ON_ERROR_STOP 1 \\set ECHO all

日均處理萬億資料！Flink在快手的應用實踐與技術演進之路

作者介紹：董亭亭，快手大資料架構實時計算引擎團隊負責人。目前負責 Flink 引擎在快手內的研發、應用以及周邊子系統建設。2013 年畢業於大連理工大學，曾就職於奇虎 360、58 集團。主要研究領域包括：分散式計算、

Flink sql 之 微批處理與MiniBatchIntervalInferRule (原始碼分析)

相關推薦

Flink sql 之微批處理與MiniBatchIntervalInferRule (原始碼分析)