SparkStreaming整合kafka入門

阿新 • • 發佈：2018-12-27

package kafka

import com.typesafe.config.ConfigFactory
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka010._
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * spark Streaming 與kafka 0.10x版本的整合
  */
object SSCDriectKafka010 {
  def main(args: Array[String]): Unit = {
    val config = ConfigFactory.load()
    val conf = new SparkConf().setAppName("kafka-streaming").setMaster("local[*]")
    //批處理時間3秒
    val ssc = new StreamingContext(conf,Seconds(3))

    //設定消費者組id
    val groupId = "day_02"

    /**
      * 構建kafka連線引數
      * latest,earliest,none
      *
      * earliest
      * //當各分割槽下有已提交的offset時,從提交的offset開始消費,無提交的offset時,從頭開始消費
      * latest
      * 當各分割槽下有已提交的offset時,從提交的offset開始消費;無提交的offset時,消費新產生的該分割槽下的資料
      * none
      * topic各分割槽都存在已提交的offset時,從offset後開始消費,只要有一個分割槽不存在已提交的offset,則丟擲異常
      */
    val kafkaParams: Map[String, Object] = Map[String, Object](
      "bootstrap.servers" -> "hadoop01:9092,hadoop02:9092,hadoop03:9092",
      "key.deserializer" -> classOf[StringDeserializer],
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> groupId,
      "auto.offset.reset" -> "earliest",
      //"auto.commit.interval.ms"-> "1000",設定為1秒提交一次offset,預設是5秒
      "enable.auto.commit" -> (false: java.lang.Boolean)  //是否自動遞交偏移量
    )
    //指定主題
    val topics = Array("user")

    /**
      *指定kafka資料來源
      * locationStrategy位置策略
      * 包含了兩個引數PreferBrokers,PreferConsistent
      * 如果說kafka的broker節點跟spark的executor節點不在同一臺機器的話,name就使用PreferConsistent
      *
      * 那麼在企業中多數情況下,kafka的broker和executor是不會在一臺伺服器的,但是對於多數
      * 中小企業來說會部署到一臺
      * 設定位置策略的原因是,會以最優化的策略進行讀取資料
      * 如果兩者在同一臺伺服器的話,讀寫資料效能會非常高,不需要走網路傳輸
      * PreferConsistent,將來kafka拉取的資料會盡量的將資料平均分散到所有的executor節點上
      */
    val stream: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String,String](
      ssc,
      LocationStrategies.PreferConsistent,
      ConsumerStrategies.Subscribe[String,String](topics, kafkaParams)
      //傳入兩個引數,一個是主題,一個是配置的引數集
    )
    //遍歷RDD
    stream.foreachRDD(rdd=>{
      val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
      // Array[OffsetRange]裡面有幾個offsetRange,有幾個分割槽就有幾個OffsetRange
      for (o <- offsetRanges){
        println(s"topic=${o.topic},partittion=${o.partition},fromoffset=${o.fromOffset},endoffset=${o.untilOffset}")
      }
      //主動發起遞交偏移量
      stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
    })
    ssc.start()
    ssc.awaitTermination()
  }
}

SparkStreaming整合kafka入門

package kafka import com.typesafe.config.ConfigFactory import org.apache.kafka.clients.consumer.ConsumerRecord import org.apache.kafka.common.seriali

SparkStreaming整合Kafka--Direct方式

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.

大資料學習之路96-SparkStreaming整合Kafka

我們前面SparkStreaming獲取資料的來源是TCP,但是平常是不會這麼用的，我們通常用的是Kafka。 SparkStreamingContext是不直接提供對Kafka的訪問的。這個時候就有KafkaUtils 這裡有兩個方法 1.createDirectStream

SparkStreaming整合kafka直連模式direct方式

org.apache.spark spark-streaming_2.10 1.6.2 org.apache.spark spark-streaming-kafka_2.10 1.

SparkStreaming整合Kafka-0.8的官方文件要點翻譯

Spark Streaming + Kafka Integration Guide (Kafka broker version 0.8.2.1 or higher) Note: Kafka 0.8 support is deprecated as of Spark 2.3.0

sparkStreaming整合Kafka

這幾天看了spark整合Kafka，消費Kafka資料並向Kafka傳送資料，仿照官方樣例寫了兩個小例子。在此分享一下。 1.新增Kafka的repository 2.DirectKafkaWordCountDemo程式碼展示 3.kafkaProduc

SparkStreaming整合kafka的補充

clas metrics clu head zookeepe 大量 topic 自動重啟備份（1）SparkStreaming 整合 kafka 兩種方式對比 Direct 方式的優缺點分析：優點：簡化並行(Simplified Parallelism)。不現

sparkstreaming整合kafka引數設定，message偏移量寫入redis

kafka高階資料來源拉取到spark，偏移量自我維護寫入到redis,建立redis連線池。需要匯入<groupId>org.apache.spark</groupId><artifactId>spark-streaming-kafka-

sparkstreaming整合kafka引數設定，message偏移量寫入mysql

kafka高階資料來源拉取到spark，偏移量自我維護，藉助scalikejdbc寫入到mysql。需要匯入 <dependency><groupId>org.scalikejdbc</groupId><artifactId&

kafka&&sparkstreaming整合入門之Wordcount

/** * @author Mr.lu * @Title: KafkaStreamingWordCount * @ProjectName spark-scala * @Description: TODO * @date 2018/11/

Flume 、Kafka 與SparkStreaming 整合程式設計

Flume 、Kafka 與SparkStreaming 整合程式設計一、 Kafka 與SparkStreaming 整合程式設計 1、程式 pull方式，可靠Recerver ，工作常

Flume+Kafka+SparkStreaming整合

目錄 1. Flume介紹 Flume是Cloudera提供的一個分散式、可靠、和高可用的海量日誌採集、聚合和傳輸的日誌收集系統，支援在日誌系統中定製各類資料傳送方，用於收集資料;同時，Flume提供對資料進行簡單處理，並寫到各種資料接受

sparkstreaming和kafka整合的兩種方式

-1,基於接收者Receiver-based的方法運算元：KafkaUtils.createStream 方法：PUSH，從topic中去推送資料，將資料推送過來 API：呼叫的Kafka高階API 效果：SparkStreaming中的Receivers，恰好Kafka有釋出/訂閱，然而：此種方式企業不常

Spark整合Kafka原始碼分析——SparkStreaming從kafak中接收資料

整體概括：要實現SparkStreaming從kafak中接收資料分為以下幾步(其中涉及的類在包org.apache.spark.streaming.kafka中)： 1.建立createStream()函式，返回型別為ReceiverInputDStream物件，在cre

SparkStreaming與Kafka整合問題彙總

!!!!!!!!!!spark的啟動：./bin/spark.shell1、SparkStreaming從Kafka中取出資料進行計算，其Kafka的生產者還是用上一篇部落格的producer.java2、SparkStreaming拉取資料：用maven管理：（1）pom.

sparkstreaming和kafka整合的兩種方式（最全）

-1,基於接收者的方法運算元：KafkaUtils.createStream 方法：PUSH，從topic中去推送資料，將資料推送過來 API：呼叫的Kafka高階API 效果：SparkStreaming中的Receivers，恰好Kafka有釋出/

kafka生產者消費者API 與sparkStreaming 整合（scala版）

maven配置檔案  <dependency>

圖解SparkStreaming與Kafka的整合，這些細節大家要注意錯過！

前言老劉是一名即將找工作的研二學生，寫部落格一方面是複習總結大資料開發的知識點，一方面是希望幫助更多自學的小夥伴。由於老劉是自學大資料開發，肯定會存在一些不足，還希望大家能夠批評指正，讓我們一起進步！今天講述的是SparkStreaming與Kafka的整合，這篇文章非常適合剛入門的小

Kafka 入門之集群部署遇到問題

學會 begin Kafka集群 zookeep 本地代碼解決方法部署研究　　最近，因為上級主管部門需要通過使用Kafka向其傳輸文件，又因為此前沒有接觸過kafka，所以在部署測試kafka程序期間遇到很多問題，在這裏總結4個問題與1個建議，方便入門者參考也便於

轉:kafka入門

分發 ram 釋放空間如果關閉連接 out 文檔分布 ets 一、基本概念介紹Kafka是一個分布式的、可分區的、可復制的消息系統。它提供了普通消息系統的功能，但具有自己獨特的設計。這個獨特的設計是什麽樣的呢？首先讓我們看幾個基本的消息系統術語：Kafka將消息以to

SparkStreaming整合kafka入門

相關推薦