Spark專案實戰-資料傾斜解決方案之將reduce join轉換為map join

阿新 • • 發佈：2018-12-12

一、reduce端join操作原理

二、map端join操作原理

三、適用場景

如果兩個RDD要進行join，其中一個RDD是比較小的。一個RDD是100萬資料，一個RDD是1萬資料。（一個RDD是1億資料，一個RDD是100萬資料）其中一個RDD必須是比較小的，broadcast出去那個小RDD的資料以後，就會在每個executor的block manager中都駐留一份。要確保你的記憶體足夠存放那個小RDD中的資料這種方式下，根本不會發生shuffle操作，肯定也不會發生資料傾斜。從根本上杜絕了join操作可能導致的資料傾斜的問題，對於join中有資料傾斜的情況，大家儘量第一時間先考慮這種方式。

不適合的情況：兩個RDD都比較大，那麼這個時候，你去將其中一個RDD做成broadcast就很笨拙了。很可能導致記憶體不足，最終導致記憶體溢位，程式掛掉。而且其中某些key（或者是某個key）還發生了資料傾斜。

四、其它說明

對於join這種操作不光是考慮資料傾斜的問題，即使是沒有資料傾斜問題，也完全可以優先考慮將reduce join轉map join的技術，不要用普通的join去通過shuffle進行資料的join。完全可以通過簡單的map，使用map join的方式，犧牲一點記憶體資源。在可行的情況下，不走shuffle直接走map效能肯定是能得到提升的。

Spark專案實戰-資料傾斜解決方案之將reduce join轉換為map join

一、reduce端join操作原理

二、map端join操作原理

三、適用場景

四、其它說明

Spark專案實戰-資料傾斜解決方案之將reduce join轉換為map join

Spark專案實戰-資料傾斜解決方案之原理以及現象分析

spark 大型專案實戰(五十八):資料傾斜解決方案之sample取樣傾斜key進行兩次join

資料傾斜解決方案之原理以及現象分析

資料傾斜解決方案之使用隨機key實現雙重聚合

spark1.x-spark-sql-資料傾斜解決方案

Mybatis 只返回一條資料的解決方案之association、collection

MapReduce資料傾斜解決方案2-- 自定義分割槽類---二次作業

HDFS資料遷移解決方案之DistCp工具的巧妙使用分析

SharePoint 2010工作流解決方案之將SharePoint Designer可重用工作流導

C語言之將弧度值轉換為角度值

Spark專案實戰-troubleshooting之解決JVM GC導致的shuffle檔案拉取失敗

Spark專案實戰-troubleshooting之解決各種序列化導致的報錯

JAVA架構師課程(大資料,分散式事物解決方案,大型網際網路專案,大型金融專案,高併發叢集解決方案)實戰開發[技術 activeMQ,zookeeper,http,支付,團購,dubbox,stom]

解決方案之網站大資料高併發

spark完整的數據傾斜解決方案

Spark專案實戰-troubleshooting之控制shuffle reduce端緩衝大小以避免OOM

spark解決方案系列--------1.spark-streaming實時Join儲存在HDFS大量資料的解決方案

企業產業升級解決方案之BI大資料分析系統搭建

redis系列之資料庫與快取資料一致性解決方案

Spark專案實戰-資料傾斜解決方案之將reduce join轉換為map join

一、reduce端join操作原理

二、map端join操作原理

三、適用場景

四、其它說明

相關推薦