Spark(二)【sc.textfile的分割槽策略原始碼分析】

阿新 • • 發佈：2020-08-01

sparkcontext.textFile()返回的是HadoopRDD！

關於HadoopRDD的官方介紹，使用的是舊版的hadoop api

ctrl+F12搜尋 HadoopRDD的getPartitions方法，這裡進行了分割槽計算

讀取的是txt檔案，用的是TextInputFormat的切片規則

當前spark3.0的HadoopRDD依賴於hadoop的切片規則。其中HadoopRDD用的是舊版hadoop API，還有個NewHadoopRDD用的是新版hadoop API

進去TextInputFromat的檢視split方法

 public InputSplit[] getSplits(JobConf job, int numSplits)
    throws IOException {
        
    // 獲取要操作的所有檔案的屬性資訊
    FileStatus[] files = listStatus(job);
    
   
    // 所有檔案的總大小
    long totalSize = 0;  // compute total size
        
   
    // 目標切片大小  numSplits=defaultMinPartitions
    long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);
        //預設為1
    long minSize = Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.
      FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize);

    // generate splits
    ArrayList<FileSplit> splits = new ArrayList<FileSplit>(numSplits);
    NetworkTopology clusterMap = new NetworkTopology();
        
        // 切片是以檔案為單位切
    for (FileStatus file: files) {
        
      //獲取檔案大小
      long length = file.getLen();
        
        //檔案不為空
      if (length != 0) {
       // 檔案是否可切，一般普通檔案都可切，如果是壓縮格式，只有lzo,Bzip2可切
        if (isSplitable(fs, path)) {
            // 獲取檔案的塊大小  預設128M
          long blockSize = file.getBlockSize();
            // 計算片大小
          long splitSize = computeSplitSize(goalSize, minSize, blockSize);

          long bytesRemaining = length;
            // 迴圈切片，以splitSize為基礎進行切片 ， 切的片大小，最後一片有可能小於片大小的1.1倍
          while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
            String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations,
                length-bytesRemaining, splitSize, clusterMap);
              // makeSplit()切片
            splits.add(makeSplit(path, length-bytesRemaining, splitSize,
                splitHosts[0], splitHosts[1]));
            bytesRemaining -= splitSize;
          }

            //剩餘部分，不夠一片，全部作為1片
          if (bytesRemaining != 0) {
            String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations, length
                - bytesRemaining, bytesRemaining, clusterMap);
            splits.add(makeSplit(path, length - bytesRemaining, bytesRemaining,
                splitHosts[0], splitHosts[1]));
          }
        } else {
          String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations,0,length,clusterMap);
          splits.add(makeSplit(path, 0, length, splitHosts[0], splitHosts[1]));
        }
      } else { 
          // 檔案為空，建立一個空的切片
        //Create empty hosts array for zero length files
        splits.add(makeSplit(path, 0, length, new String[0]));
      }
    }
    sw.stop();
    if (LOG.isDebugEnabled()) {
      LOG.debug("Total # of splits generated by getSplits: " + splits.size()
          + ", TimeTaken: " + sw.now(TimeUnit.MILLISECONDS));
    }
    return splits.toArray(new FileSplit[splits.size()]);
  }

計算片大小:片大小的計算以所有檔案的總大小計算，切片時以檔案為單位進行切片。

protected long computeSplitSize(long goalSize, long minSize,
                                       long blockSize) {
    // minSize預設為1
    return Math.max(minSize, Math.min(goalSize, blockSize));
  }

總結：在大資料的計算領域，一般情況下，塊大小就是片大小！

分割槽數過多，會導致切片大小 < 塊大小。

分割槽數過少，task個數也會少，資料處理效率低，合理設定分割槽數。

Spark(二)【sc.textfile的分割槽策略原始碼分析】

sparkcontext.textFile()返回的是HadoopRDD！關於HadoopRDD的官方介紹，使用的是舊版的hadoop api

Spark(九)【RDD的分割槽和自定義Partitioner】

目錄spark的分割槽一. Hash分割槽二. Ranger分割槽三. 自定義Partitioner案例 spark的分割槽

【spring原始碼分析】二、Aware

2.Aware Aware.java是個沒有定義任何方法的介面，擁有眾多子介面，在spring原始碼中有多處都在使用這些子介面完成各種場景下的回撥操作，當業務有需要時，我們只需建立類來實現相關介面，再宣告為bean，就可以被spri

memcached記憶體分配策略原始碼分析

本文基於memcached 1.2.0寫成 memcached的記憶體分配器slab.c不過300行程式碼，還是比較容易上手分析的。

Spark(三)【RDD中的自定義排序】

在RDD中預設的運算元sortBy，sortByKey只能真的值型別資料升序或者降序現需要對自定義物件進行自定義排序。

Spark(七)【RDD的持久化Cache和CheckPoint】

RDD的持久化 1. RDD Cache快取 RDD通過Cache或者Persist方法將前面的計算結果快取，預設情況下會把資料以快取在JVM的堆記憶體中。但是並不是這兩個方法被呼叫時立即快取，而是觸發後面的action運算元時，該RDD將會

Spark(十三)【SparkSQL自定義UDF/UDAF函式】

目錄一.UDF(一進一出)二.UDAF(多近一出)spark2.X 實現方式案例①繼承UserDefinedAggregateFunction，實現其中的方法②建立函式物件，註冊函式，在sql中使用spark3.X實現方式案例①繼承Aggregator [-IN, BUF, OUT]，宣

aspnetcore讀取配置【原始碼分析】

總的邏輯 // 1 新增配置源source ,結果儲存在IConfigurationBuilder的成員變數 IList<IConfigurationSource> Sources { get; } 中

【Yarn原始碼分析】FairScheduler資源排程

一、Yarn 資源排程方式資源排程方式確定了當任務提交到叢集，如何為其分配資源執行任務。在 FairScheduler 中提供了兩種資源排程方式：心跳排程和連續排程。

深度剖析 Kafka Producer 的緩衝池機制【圖解 + 原始碼分析】

上次跟大家分享的文章「Kafka Producer 非同步傳送訊息居然也會阻塞？」中提到了緩衝池，後面再經過一番閱讀原始碼後，發現了這個緩衝池設計的很棒，被它的設計思想優雅到了，所以忍不住跟大家繼續分享一波。

jmeter效能測試面試題二【多測師_王sir】

1.什麼是效能測試？測試系統有沒有效能問題考慮時間，空間服務端資源是否足夠？

【spring原始碼分析】一、BeanPostProcessor

在spring-beans中org.springframework.beans.factory.config.BeanPostProcessor BeanPostProcessor也稱為Bean後置處理器，它是Spring中定義的介面，在Spring容器的建立過程中（具體為Bean初始化前後）會回撥BeanPost

SparkUI中顯示stage skipped的原因【原始碼分析】

技術標籤：大資料spark大資料 SparkUI中顯示stage skipped的原因【原始碼分析】 Spark Job的ResultStage的最後一個Task成功執行之後，DAGScheduler.handleTaskCompletion方法會發送SparkListenerJobEnd事件，原

【UGUI原始碼分析】Unity遮罩之Mask詳細解讀

遮罩，顧名思義是一種可以掩蓋其它元素的控制元件。常用於修改其它元素的外觀，或限制元素的形狀。比如ScrollView或者圓頭像效果都有用到遮罩功能。本系列文章希望通過閱讀UGUI原始碼的方式，來探究遮罩的實現原理，

【spark2】【原始碼學習】【分割槽數】spark讀取 hdfs/可分割/單個的檔案時是如何劃分分割槽

前言 spark怎麼知道讀取的是本地檔案還是hdfs的檔案呢？前面寫過一篇部落格【spark2的textFile()是怎麼例項化各個不同的fs(FileSystem)】，主要是指【本地檔案系統】和【hadoop檔案系統】，我們看到原始碼

【筆記】拉勾Java工程師高薪訓練營-第一階段開源框架原始碼解析-模組一持久層框架涉及實現及MyBatis原始碼分析-任務二：Mybatis基礎回顧及高階應用

以下筆記是我看完視訊之後總結整理的，部分較為基礎的知識點也做了補充，如有問題歡迎溝通。

【SpringBoot】原理分析（二）：啟動流程原始碼分析（包括內嵌tomcat啟動分析）

技術標籤：Spring系列spring bootjavatomcat 看 SpringBoot 的啟動流程原始碼的入口很好找，就是啟動類的 SpringApplication.run(DemoApplication.class, args)，點進run方法如下：

【十二】【vlc-anroid】視訊影象display展示層模組原始碼分析-OpenGL ES2互動渲染

技術標籤：【音視訊】【vlc-android】vlcopengl 接著第十章節分析。本章節分析openGL預設展示方式。

Spark(二十一)【SparkSQL讀取Kudu，寫入Kafka】

目錄SparkSQL讀取Kudu,寫出到Kafka1. pom.xml 依賴2.將KafkaProducer利用lazy val的方式進行包裝, 建立KafkaSink3.利用廣播變數，將KafkaProducer廣播到每一個executor

熔斷器 Hystrix 原始碼解析 —— 命令執行（二）之執行隔離策略

本文主要基於 Hystrix 1.5.X 版本 1. 概述 2. HystrixThreadPoolProperties 3. HystrixThreadPoolKey

Spark(二)【sc.textfile的分割槽策略原始碼分析】

相關推薦