spark streaming 中 direct 直連方式從kafka中怎麼拉取資料

阿新 • • 發佈：2018-12-17

我們知道 SparkStreaming 用 Direct 的方式拉取 Kafka 資料時，是根據 kafka 中的 fromOffsets 和 untilOffsets 來進行獲取資料的，而 fromOffsets 一般都是需要我們自己管理的，而每批次的 untilOffsets 是由 Driver 程式自動幫我們算出來的。
於是產生了一個疑問：untilOffsets 是怎麼算出來的？
接下來就通過檢視原始碼的方式來找出答案~

首先我們寫一個最簡單的 wordcount 程式，程式碼如下：

/**
  * Created by Lin_wj1995 on 2018/4/19.
  * 來源：https://blog.csdn.net/Lin_wj1995
  */
object DirectKafkaWordCount {
  def main(args: Array[String]) {
    val Array(brokers, topics) = args
    val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount")
    val ssc = new StreamingContext(sparkConf, Seconds(2))

    val topicsSet = topics.split(",").toSet
    val kafkaParams = Map[String, String]("metadata.broker.list" -> brokers)
    val messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicsSet)

    //拿到資料
    val lines = messages.map(_._2)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)
    wordCounts.print()

    // 啟動
    ssc.start()
    ssc.awaitTermination()
  }
}

我們可以看出， createDirectStream 是獲得資料的關鍵方法的，我們點選進去

def createDirectStream[
    K: ClassTag,
    V: ClassTag,
    KD <: Decoder[K]: ClassTag,
    VD <: Decoder[V]: ClassTag] (
      ssc: StreamingContext,
      kafkaParams: Map[String, String],
      topics: Set[String]
  ): InputDStream[(K, V)] = {
    val messageHandler = (mmd: MessageAndMetadata[K, V]) => (mmd.key, mmd.message)
    //kafka cluster 連線物件
    val kc = new KafkaCluster(kafkaParams)
    //讀取資料的開始位置
    val fromOffsets = getFromOffsets(kc, kafkaParams, topics)
    //該方法返回了一個DirectKafkaInputDStream的物件
    new DirectKafkaInputDStream[K, V, KD, VD, (K, V)](
      ssc, kafkaParams, fromOffsets, messageHandler)
  }

ok，重點來了，點選 DirectKafkaInputDStream ，看一下該類內部是如何的，由於該類內部的方法都是重點，所有我把該類重點的屬性和方法有選擇性的貼出來：
建議從下往上讀！~

private[streaming]
class DirectKafkaInputDStream[
  K: ClassTag,
  V: ClassTag,
  U <: Decoder[K]: ClassTag,
  T <: Decoder[V]: ClassTag,
  R: ClassTag](
    ssc_ : StreamingContext,
    val kafkaParams: Map[String, String],
    val fromOffsets: Map[TopicAndPartition, Long],
    messageHandler: MessageAndMetadata[K, V] => R
  ) extends InputDStream[R](ssc_) with Logging {
  /**
    * 為了拿到每個分割槽leader上的最新偏移量(預設值為1)，Driver發出請求的最大的連續重試次數
    * 預設值為1，也就是說最多請求 2 次
    */
  val maxRetries = context.sparkContext.getConf.getInt(
    "spark.streaming.kafka.maxRetries", 1)

  /**
    * 通過 receiver tracker 非同步地維持和傳送新的 rate limits 給 receiver
    * 注意：如果引數 spark.streaming.backpressure.enabled 沒有設定，那麼返回為None
   */
  override protected[streaming] val rateController: Option[RateController] = {
    /**
      * isBackPressureEnabled方法對應著“spark.streaming.backpressure.enabled”引數
      * 引數說明：簡單來講就是自動推測程式的執行情況並控制接收資料的條數，為了防止處理資料的時間大於批次時間而導致的資料堆積
      *           預設是沒有開啟的
      */
    if (RateController.isBackPressureEnabled(ssc.conf)) {
      Some(new DirectKafkaRateController(id,
        RateEstimator.create(ssc.conf, context.graph.batchDuration)))
    } else {
      None
    }
  }

  //拿到與Kafka叢集的連線
  protected val kc = new KafkaCluster(kafkaParams)

  //每個partition每次最多獲取多少條資料，預設是0
  private val maxRateLimitPerPartition: Int = context.sparkContext.getConf.getInt(
      "spark.streaming.kafka.maxRatePerPartition", 0)

  /**
    * 真實算出每個partition獲取資料的最大條數
    */
  protected def maxMessagesPerPartition: Option[Long] = {
    val estimatedRateLimit = rateController.map(_.getLatestRate().toInt) //每批都根據rateContoller預估獲取多少條資料
    val numPartitions = currentOffsets.keys.size

    val effectiveRateLimitPerPartition = estimatedRateLimit
      .filter(_ > 0)
      .map { limit =>
        if (maxRateLimitPerPartition > 0) {
          /*
          如果 spark.streaming.kafka.maxRatePerPartition 該引數有設定值且大於0
          那麼就取 maxRateLimitPerPartition 和 rateController 算出來的值 之間的最小值（為什麼取最小值，因為這樣是最保險的）
           */
          Math.min(maxRateLimitPerPartition, (limit / numPartitions))
        } else {
          /*
          如果 spark.streaming.kafka.maxRatePerPartition 該引數沒有設定
          那麼就直接用 rateController 算出來的值
           */
          limit / numPartitions
        }
      }.getOrElse(maxRateLimitPerPartition) //如果沒有設定自動推測的話，則返回引數設定的接收速率

    if (effectiveRateLimitPerPartition > 0) {
      val secsPerBatch = context.graph.batchDuration.milliseconds.toDouble / 1000
      Some((secsPerBatch * effectiveRateLimitPerPartition).toLong)
    } else {
      /*
      如果沒有設定 spark.streaming.kafka.maxRatePerPartition 引數，則返回None
       */
      None
    }
  }

  //拿到每批的起始 offset
  protected var currentOffsets = fromOffsets

  /**
    * 獲取此時此刻topic中每個partition 最大的（最新的）offset
    */
  @tailrec
  protected final def latestLeaderOffsets(retries: Int): Map[TopicAndPartition, LeaderOffset] = {
    val o = kc.getLatestLeaderOffsets(currentOffsets.keySet)
    // Either.fold would confuse @tailrec, do it manually
    if (o.isLeft) {
      val err = o.left.get.toString
      if (retries <= 0) {
        throw new SparkException(err)
      } else {
        log.error(err)
        Thread.sleep(kc.config.refreshLeaderBackoffMs)
        latestLeaderOffsets(retries - 1)//如果獲取失敗，則重試，且重試次數 -1
      }
    } else {
      o.right.get //如果沒有問題，則拿到最新的 offset
    }
  }

  // limits the maximum number of messages per partition
  /**
    * ★★★★★重要方法，答案就在這裡
    * @param leaderOffsets 該引數的offset是當前最新的offset
    * @return 包含untilOffsets的資訊
    */
  protected def clamp(
    leaderOffsets: Map[TopicAndPartition, LeaderOffset]): Map[TopicAndPartition, LeaderOffset] = {
    maxMessagesPerPartition.map { mmp =>
      leaderOffsets.map { case (tp, lo) =>
        /**
          * 如果有設定自動推測，那麼就將值設定為： min（自動推測出來的offset，此時此刻最新的offset）
          */
        tp -> lo.copy(offset = Math.min(currentOffsets(tp) + mmp, lo.offset))
      }
    }.getOrElse(leaderOffsets) //如果沒有設定自動推測，那麼untilOffsets的值就是最新的offset
  }

  override def compute(validTime: Time): Option[KafkaRDD[K, V, U, T, R]] = {
    //====》★★★★★從這裡作為入口盡心檢視
    val untilOffsets = clamp(latestLeaderOffsets(maxRetries))
    //根據offset去拉取資料，完！
    val rdd = KafkaRDD[K, V, U, T, R](
      context.sparkContext, kafkaParams, currentOffsets, untilOffsets, messageHandler)

spark streaming 中 direct 直連方式從kafka中怎麼拉取資料

我們知道 SparkStreaming 用 Direct 的方式拉取 Kafka 資料時，是根據 kafka 中的 fromOffsets 和 untilOffsets 來進行獲取資料的，而 fromOffsets 一般都是需要我們自己管理的，而每批次的 untilOffse

Spark Streaming中的Receiver方式和直連方式

Spark Streaming從Kafka中接受資料的時候有兩種方式，一種是使用Receiver的老方法，另一種是使用直連的方法 1.Receiver方式 Receiver是使用Kafka高階消費者API實現的，與所有接收器一樣，從Kafka通過Receiver接收的資料

Spark Streaming通過直連的方式消費Kafka中的資料

為什麼採用直連（createDirectStream）的方式，主要有以下幾個原因： 1.createDirectStream的方式從Kafka叢集中讀取資料，並且在Spark Streaming系統裡面維護偏移量相關的資訊，實現零資料丟失，保證不重複消費，比createS

大資料學習之路97-kafka直連方式（spark streaming 整合kafka 0.10版本）

我們之前SparkStreaming整合Kafka的時候用的是傻瓜式的方式-----createStream,但是這種方式的效率很低。而且在kafka 0.10版本之後就不再提供了。接下來我們使用Kafka直連的方式，這種方式其實是呼叫Kafka底層的消費資料的API,我們知道，越底層的東

Kafka結合Spark-streaming 的兩種連線方式(AWL與直連)

kafka結合spark-streaming的用法及說明之前部落格有些，這裡就不贅述了。這篇文章說下他們結合使用的兩種連線方式。(AWL與直連) 先看一張圖：這是kafka與streaming結合的基本方式，如圖spark叢集中的 worker節點中 exeutor

Spark Streaming從Kafka中獲取數據，並進行實時單詞統計，統計URL出現的次數

scrip 發送消息 rip mark 3.2 umt 過程 bject ttr 1、創建Maven項目創建的過程參考：http://blog.csdn.net/tototuzuoquan/article/details/74571374 2、啟動Kafka A:安裝ka

Spark支援四種方式從資料庫中讀取資料

目前Spark支援四種方式從資料庫中讀取資料，這裡以Mysql為例進行介紹。一、不指定查詢條件　　這個方式連結MySql的函式原型是： def jdbc(url: String, table: String, properties: Properties):

Spark Streaming從Kafka中獲取資料，並進行實時單詞統計，統計URL出現的次數

1、建立Maven專案 2、啟動Kafka 3、編寫Pom檔案 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.or

使用sparkStreaming與Kafka直連方式WordCount,使用redis存放中間結果

1、maven的pom.xml檔案，新增jedis依賴  <dependency> <groupId>redis.clients</groupId>

SparkStreaming與kafka通過直連方式讀取資料

1、Spark-Streaming的receive的方式和直連方式有什麼區別: Receive接收固定時間間隔的資料（放在記憶體中），達到固定的時間才進行處理，效率低並且容易丟失資料（Kafka高階API），自動維護偏移量 Direct直連方式，相當於直接連線到Kafka的分割槽上，相當於K

kafka直連方式消費多個topic

一個消費者組可以消費多個topic，以前寫過一篇一個消費者消費一個topic的，這次的是一個消費者組通過直連方式消費多個topic,做了小測試，結果是正確的，通過檢視zookeeper的客戶端，zookeeper記錄了偏移量 package day04 /*

Spark Streaming foreachRDD的正確使用方式

重點：Spark Streaming的foreachRDD執行在Driver端，而foreach和foreachPartion執行在Worker節點。備註：對資料的向外輸出，還是用foreach**運算元好，不要用Map**運算元，因為Map還要返回一個RDD。誤區一：在dr

kafka直連方式，使用redis儲存偏移量

使用Redis來記錄偏移量，以前用receive方式時，使用zookeeper儲存偏移量，不用自己儲存偏移量，使用直連方式可以自己儲存偏移量，更加靈活。在直連方式中，儲存偏移量可以使用zookeeper，也可以使用mysql、redis等來儲存偏移量，下面使用一

direct直連模式

如果我們需要接收指定的訊息，可以通過直連型別的交換機實現，佇列1、2將僅接受key1的訊息，而佇列3、4將接收key2的訊息。生產者: public class Producer { private static final String EXCHANGE_N

Dubbo直連方式

[TOC] ## 一、dubbo概述 Apache Dubbo 是一款高效能、輕量級的開源 Java RPC 框架，它提供了三大核心能力： - 面向介面的遠端方法呼叫， - 智慧容錯和負載均衡， - 服務自動註冊和發現。 Dubbo 是一個分散式服務框架，致力於提供高效能和透明化的 RPC 遠端服務呼叫