Spark Executor記憶體管理

阿新 • • 發佈：2018-11-21

堆內和堆外記憶體規劃

1.堆內記憶體：由-executor-memory配置，executor內所有併發任務共享

序列化：將物件轉換為二進位制位元組流，本質上可以理解為將非連續空間的鏈式儲存轉化為連續空間或塊儲存

2.堆外記憶體：由spark.memory.offHeap.size配置，優化記憶體的使用，提高shuffle時排序效率，儲存經過序列化的二進位制資料，預設關閉

3.記憶體管理介面：MemoryManager（靜態記憶體管理（1.6）—>統一記憶體管理）

記憶體空間分配

1.靜態記憶體管理

storage:快取RDD資料和broadcast資料

可用儲存記憶體 = systemMaxMemory * spark.storage.memoryFraction * spark.storage.safety

execution:快取shuffle過程中中間資料

可用執行記憶體 = systemMaxMemory * spark.shuffle.memoryFraction * spark.shuffle.safety

other:使用者程式碼執行區域

2.統一記憶體管理

Storage和Execution共享同一塊空間，動態佔用對方空閒區域

規則：

storage和execution大小由spark.storage.storageFraction配置（0.6）
雙方空間都不足，儲存到磁碟；有一方空餘，借用對方空間
execution被對方佔用，可讓對方歸還空間，將該部分轉存到硬碟
storage被佔用，無法歸還，shuffle過程較為複雜

儲存記憶體管理

1.RDD的持久化機制

RDD：spark最基本的資料抽象，是隻讀的分割槽記錄的集合—從穩定物理儲存的資料集建立或已有的RDD轉換。

RDD之間的轉換會形成依賴關係，構成血統（Lineage），保證每個RDD可被恢復。

task啟動之初讀取某一分割槽，先判斷是否持久化，無則檢查checkpoint或按lineage重新計算。

持久化：persist或cache，cache預設為MEMORY_ONLY，由storage模組負責

checkpoint:持久化不能保證資料完全不丟失，可以將DAG中重要的資料儲存到高可用的地方（HDFS）

2.RDD快取的過程

RDD在快取到storage記憶體之前，通過iterator獲取分割槽中的資料項（record），record邏輯上佔用JVM堆內記憶體的other空間，同一 partition的不同record空間不連續

RDD快取到storage，partition轉block，儲存空間連續，該過程稱為“展開”（unroll）

3.淘汰和落盤

新的block需要快取到storage，但空間不足，對LinkedHashMap中舊block進行淘汰（Eviction）

淘汰的block如果可以儲存到磁碟，則進行落盤（drop），否則刪除

淘汰規則：

被淘汰的舊block要與新block的memorymode相同，同屬於堆內或堆外記憶體
新舊block不屬於同一個RDD
舊block所屬RDD不處於被讀狀態，避免一致性問題
遍歷LinkedHashMap中block，採用最近最少使用（LRU）順序淘汰

Spark Executor記憶體管理

堆內和堆外記憶體規劃 1.堆內記憶體：由-executor-memory配置，executor內所有併發任務共享序列化：將物件轉換為二進位制位元組流，本質上可以理解為將非連續空間的鏈式儲存轉化為連續空間或塊儲存 2.堆外記憶體：由spark

Spark 靜態記憶體管理

作者編輯：杜曉蝶，王瑋，任澤 Spark 靜態記憶體管理詳解一、內容簡介 spark從1.6開始引入了動態記憶體管理模式，即執行記憶體和儲存記憶體之間可以互相搶佔。spark提供兩種記憶體分配模式，即：靜態記憶體管理和動態記憶體管理。該系列文章分別對這兩種記

Spark(二): 記憶體管理

Spark 作為一個以擅長記憶體計算為優勢的計算引擎，記憶體管理方案是其非常重要的模組； Spark的記憶體可以大體歸為兩類：execution和storage，前者包括shuffles、joins、sorts和aggregations所需記憶體，後者

Spark靜態記憶體管理：StaticMemoryManager

例如Executor的可用Heap大小是10G，實際上Spark只能使用90%，也就是9G的大小，是由spark.storage.safetyFraction來控制。 Spark1.6.X以前JVM到底可以快取多少資料？（1）單個Executor的Cache資料量計算公式： Heap Size * spar

Spark 統一記憶體管理模型詳解

其實 Spark UI 上面顯示的 Storage Memory 可用記憶體等於堆內記憶體和堆外記憶體之和，計算公式如下：堆內 systemMemory = 17179869184 位元組 reservedMemory = 300MB = 300 * 1024 *

大資料IMF傳奇行動絕密課程第54課：Spark效能優化第十季之Spark統一記憶體管理

Spark效能優化第十季之Spark統一記憶體管理 1、傳統的Spark記憶體管理的問題 2、Spark統一記憶體管理 3、展望 Spark記憶體分為三部分：Execution、Sotrage、Other； Shuffle，當記憶體不夠的時候下，磁碟I

[Spark進階]-- 記憶體管理

前言 Spark 的記憶體管理是記憶體分散式引擎中的一個重要角色，瞭解記憶體管理機制和原理，才能更好地做優化。內容 1、靜態記憶體管理（Spark 1.6.x版本前的策略）靜態記憶體管理圖示——堆內 Unroll 的原始碼參考：https://github.co

spark調優（二）-Apache Spark 記憶體管理詳解

Apache Spark 記憶體管理詳解轉載於：https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html Spark 作為一個基於記憶體的分散式計算引擎，

Spark記憶體管理（4）—— UnifiedMemoryManager分析

acquireExecutionMemory方法關注UnifiedMemoryManager中的accquireExecutionMemory方法：當前的任務嘗試從executor中獲取numBytes這麼大的記憶體該方法直接向Execu

Apache Spark 記憶體管理詳解

Spark 作為一個基於記憶體的分散式計算引擎，其記憶體管理模組在整個系統中扮演著非常重要的角色。理解 Spark 記憶體管理的基本原理，有助於更好地開發 Spark 應用程式和進行效能調優。本文旨在梳理出 Spark 記憶體管理的脈絡，拋磚引玉，引出讀者對這個話題的深入探討。本文中闡述的原理基於 Sp

Spark中的記憶體管理(一)

一個Spark應用執行的過程如下所示: Driver使用者的主程式提交到Driver中執行，在Driver中建立SparkContext，SparkContext初始化DAGScheduler和TaskScheduler，作為coordinator負責從AppMaster申請資源，並將作業的Task排程

Apache Spark 記憶體管理詳解（轉載）

Spark 作為一個基於記憶體的分散式計算引擎，其記憶體管理模組在整個系統中扮演著非常重要的角色。理解 Spark 記憶體管理的基本原理，有助於更好地開發 Spark 應用程式和進行效能調優。本文旨在梳理出 Spark 記憶體管理的脈絡，拋磚引玉，引出讀者對這個話題的深入探討。本文中闡述的原理基於 Spark

[spark] 記憶體管理 MemoryManager 解析

概述 spark的記憶體管理有兩套方案，新舊方案分別對應的類是UnifiedMemoryManager和StaticMemoryManager。舊方案是靜態的，storageMemory（儲存記憶體）和executionMemory（執行記憶體）擁有的記憶

Spark 記憶體管理詳解

Spark 作為一個基於記憶體的分散式計算引擎，其記憶體管理模組在整個系統中扮演著非常重要的角色。理解 Spark 記憶體管理的基本原理，有助於更好地開發 Spark 應用程式和進行效能調優。本文旨在梳理出 Spark 記憶體管理的脈絡，拋磚引玉，引出讀者對這個話題的深

spark記憶體管理器--MemoryManager原始碼解析

MemoryManager記憶體管理器記憶體管理器可以說是spark核心中最重要的基礎模組之一，shuffle時的排序，rdd快取，展開記憶體，廣播變數，Task執行結果的儲存等等，凡是需要使用記憶體的地方都需要向記憶體管理器定額申請。我認為記憶體管理器的主要作用是為了儘可能減小記憶體溢位的同時提高記憶體利

spark 原始碼分析之十五 -- Spark記憶體管理剖析

本篇文章主要剖析Spark的記憶體管理體系。在上篇文章 spark 原始碼分析之十四 -- broadcast 是如何實現的？中對儲存相關的內容沒有做過多的剖析，下面計劃先剖析Spark的記憶體機制，進而進入記憶體儲存，最後再剖析磁碟儲存。本篇文章主要剖析記憶體管理機制。整體介紹 Spar

spark 原始碼分析之二十二-- Task的記憶體管理

問題的提出本篇文章將回答如下問題： 1. spark任務在執行的時候，其記憶體是如何管理的？ 2. 堆內記憶體的定址是如何設計的？是如何避免由於JVM的GC的存在引起的記憶體地址變化的？其內部的記憶體快取池回收機制是如何設計的？ 3. 堆外和堆內記憶體分別是通過什麼來分配的？其資料的偏移

spark記憶體管理這一篇就夠了

1. 堆內和堆外記憶體規劃 1.1 堆內記憶體堆內記憶體的大小，由 Spark 應用程式啟動時的 –executor-memory 或 spark.executor.memory 引數配置。Executor 內執行的併發任務共享 JVM 堆內記憶體，這些任務在快取 RDD 資料和廣播（Broadcast）資

Apache Spark 內存管理詳解

append 緩存 hashmap slave 完整 developer transform borde 區別 Apache Spark 內存管理詳解 Spark 作為一個基於內存的分布式計算引擎，其內存管理模塊在整個系統中扮演著非常重要的角色。理解 Spark 內存

Spark內存管理機制

轉換成 ora 哈希表中斷冗余備份 exe 原理不同基礎 Spark內存管理機制 Spark 作為一個基於內存的分布式計算引擎，其內存管理模塊在整個系統中扮演著非常重要的角色。理解 Spark 內存管理的基本原理，有助於更好地開發 Spark 應用程序和進行性能調

Spark Executor記憶體管理

相關推薦