flink的探索（low文件多多指教）

阿新 • • 發佈：2019-01-29

執行時層以JobGraph形式接收程式。JobGraph即為一個一般化的並行資料流圖（data flow），它擁有任意數量的Task來接收和產生data stream。
DataStream API和DataSet API都會使用單獨編譯的處理方式生成JobGraph。DataSet API使用optimizer來決定針對程式的優化方法，而DataStream API則使用stream builder來完成該任務。
Gelly 影象處理，flinkml機器學習，複雜事件處理cep

原理 1.流，轉換，操作符 Flink程式是由Stream和Transformation這兩個基本構建塊組成，其中Stream是一箇中間結果資料，而Transformation是一個操作，它對一個或多個輸入Stream進行計算處理，輸出一個或多個結果Stream。

2.見圖

3.任務，操作符鏈 flink分散式執行環境中，會將多個操作子任務串起來組成一個operator chain，實際上就是一個執行鏈，每個執行鏈會在taskmanager上一個獨立的執行緒中執行。 4.時間處理stream中的記錄時，記錄中通常會包含各種典型的時間欄位：

Event Time：表示事件建立時間
Ingestion Time：表示事件進入到Flink Dataflow的時間
Processing Time：表示某個Operator對事件進行轉換的本地系統時間

Flink使用WaterMark衡量時間的時間，WaterMark攜帶時間戳t，並被插入到stream中。

1.WaterMark的含義是所有時間t'< t的事件都已經發生。 2.針對亂序的的流，WaterMark至關重要，這樣可以允許一些事件到達延遲，而不至於過於影響window視窗的計算。 3.並行資料流中，當Operator有多個輸入流時，Operator的event time以最小流event time為準。 5.視窗 flink支援基於時間視窗操作，也支援基於資料的視窗操作：

視窗分類： 1.按分割標準劃分：timewindow,countwindow 2.按視窗行為劃分：tumbling window,sliding window,自定義視窗，sliding window可以新增觸發時間。

6.容錯

出現一個Barrier，在該Barrier之前出現的記錄都屬於該Barrier對應的Snapshot，在該Barrier之後出現的記錄屬於下一個Snapshot。
來自不同Snapshot多個Barrier可能同時出現在資料流中，也就是說同一個時刻可能併發存在多個Snapshot。
當一箇中間（Intermediate）Operator接收到一個Barrier後，它會發送Barrier到屬於該Barrier的Snapshot的資料流中，等到Sink Operator接收到該Barrier後會向Checkpoint Coordinator確認該Snapshot，直到所有的Sink Operator都確認了該Snapshot，才被認為完成了該Snapshot。

圖解釋

對齊：當Operator接收到多個輸入的資料流時，需要在Snapshot Barrier中對資料流進行排列對齊：

Operator從一個incoming Stream接收到Snapshot Barrier n，然後暫停處理，直到其它的incoming Stream的Barrier n（否則屬於2個Snapshot的記錄就混在一起了）到達該Operator
接收到Barrier n的Stream被臨時擱置，來自這些Stream的記錄不會被處理，而是被放在一個Buffer中。
一旦最後一個stream接收到Barrier n，Operator會emit所有暫存在Buffer中的記錄，然後向Checkpoint Coordinator傳送Snapshot n。
繼續處理來自多個Stream的記錄

7.排程 在JobManager端，會接收到Client提交的JobGraph形式的Flink Job，JobManager會將一個JobGraph轉換對映為一個ExecutionGraph，ExecutionGraph是JobGraph的並行表示，也就是實際JobManager排程一個Job在TaskManager上執行的邏輯檢視。

8.迭代 機器學習和圖計算應用，都會使用到迭代計算，Flink通過在迭代Operator中定義Step函式來實現迭代演算法，這種迭代演算法包括Iterate和Delta Iterate兩種型別。 9.back pressure 監控流處理系統中，當下遊Operator處理速度跟不上的情況，如果下游Operator能夠將自己處理狀態傳播給上游Operator，使得上游Operator處理速度慢下來就會緩解上述問題，比如通過告警的方式通知現有流處理系統存在的問題。 Flink Web介面上提供了對執行Job的Backpressure行為的監控，它通過使用Sampling執行緒對正在執行的Task進行堆疊跟蹤取樣來實現。預設情況下，JobManager會每間隔50ms觸發對一個Job的每個Task依次進行100次堆疊跟蹤呼叫，過計算得到一個比值，例如，radio=0.01，表示100次中僅有1次方法呼叫阻塞。Flink目前定義瞭如下Backpressure狀態： OK: 0 <= Ratio <= 0.10 LOW: 0.10 < Ratio <= 0.5 HIGH: 0.5 < Ratio <= 1 部署 java環境

1.官網下載flink並解壓具體命令 tar -zxvf flink-* (想該名的改名字 mv 原來名字修改的名字) 2.cd flink-1.3/conf/ 修改裡面的flink-conf.yaml配置檔案的內容

taskmanager.tmp.dirs:/tmp 臨時檔案的目錄（屬於上面配置，截圖沒截到）注：上面圖片引數說明 1.master的主機名或者IP 2.jobmanager監聽的埠 3.jobmanager的記憶體引數 4.taskmanager可用的記憶體 5.每臺taskmanager可用的solt數目，一般設定CPU的core數 6.numtaskmanagers（slave的個數）

這個是web UI介面的埠號 3.修改conf/masters檔案 vi masters 主節點ip:port 比如10.10.198.12:8081 4.修改conf/slaves檔案 vi slaves 從節點的IP（有幾臺寫幾臺） 每一臺機器都需要配置一致，當主節點配置好之後可以用以下命令進行復制到其他機器 scp -r 要傳的檔名字傳到機器的使用者名稱（如admin）@傳到機器的ip：傳到機器所在的位置 如：

scp -r masters [email protected]:/home/admin/flink-1.3.2/conf/

flink的探索（low文件多多指教）

flink的探索（low文件多多指教）

MYSQL文件結構（日誌文件待補充）

案例52-crm練習新增客戶中加入文件上傳功能（struts2文件上傳）

Spring Boot入門系列三（資源文件屬性配置）

spark編譯（官方文件翻譯版）

Nginx 性能優化（配置文件詳解）

QNX開發最完整圖文教程（官方文件,非官方翻譯）

Django快取框架詳解（官方文件翻譯來）

《深入理解Spark》之Spark-Stream概述1（官方文件翻譯版）

Hystrix配置簡單說明（官方文件簡譯）

現代中小企業IT基礎平臺建設 - 完整案例實戰（08_文件共享應用）

Linux學習第一步（虛擬機的和鏡像文件的安裝）

Linux下MySQL5.7.18二進制包安裝（無默認配置文件my_default.cnf）

js 解決由於&#65279（bom文件格式）產生的空白行

JMeter接口測試——參數化（從文件中讀取參數）

Linux基礎入門--find（文件查找）

批量讀文件為一個String（一個文件夾下的大量xml文件）

Spring Batch 簡單應用（CSV文件操作）(二)

python-基礎入門-3（對文件操作）

在AndroidManifest（清單文件）中註冊activity（活動）及配置主活動、更改App圖標、App名稱、修改隱藏標題欄

flink的探索（low文件多多指教）

相關推薦