SparkStreaming（14）：log4j日誌-flume-kafka-SparkStreaming的整合

阿新 • • 發佈：2018-11-08

一、功能實現

模擬log4j的日誌生產，將日誌輸出到flume伺服器。然後，通過flume將日誌資訊輸出到kafka，進而Streaming可以從kafka獲得日誌，並且進行簡單的處理。

二、步驟

1.目的：

使用log4j將日誌輸按照一定格式輸出，並且傳遞給flume伺服器特定埠接收資料。然後使用kafka接收，並使用streaming處理。

2.產生log4j日誌：

（1）在IDEA的test資料夾下面建立java測試資料夾，並且設定為測試程式碼！

（2）指定log4j日誌格式，並且和flume對接

-》新加test的resources資料夾，新建log4j.properties

log4j.rootCategory=INFO,stdout,flume
#...log4j輸出格式
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.target=System.out
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss}  [%t] [%C] [%p] - %m%n


#...log4j輸出到flume位置
log4j.appender.flume = org.apache.flume.clients.log4jappender.Log4jAppender
log4j.appender.flume.Hostname = bigdata.ibeifeng.com
log4j.appender.flume.Port = 41414
log4j.appender.flume.UnsafeMode = true

實現功能：（b）指定日誌生產格式，（b）指定輸出到特定的flume伺服器埠，即與flume進行關聯

【參考官網：http://flume.apache.org/FlumeUserGuide.html搜尋Log4J Appender】

日誌格式：
2018-09-23 12:13:52  [main] [LoggerGenerator] [INFO] - current value is :0
2018-09-23 12:13:54  [main] [LoggerGenerator] [INFO] - current value is :1
2018-09-23 12:13:55  [main] [LoggerGenerator] [INFO] - current value is :2

（3）新增依賴

    <dependency>
      <groupId>org.apache.flume.flume-ng-clients</groupId>
      <artifactId>flume-ng-log4jappender</artifactId>
      <version>1.6.0</version>
    </dependency>

（4）重新執行java程式LoggerGenerator

import org.apache.log4j.Logger;

public class LoggerGenerator {
    private static Logger logger= Logger.getLogger(LoggerGenerator.class.getName());

    public static void main(String[] args) throws Exception{
        int index=0;
        while (true){
            Thread.sleep(100);
            logger.info("value is :"+ index++);
        }
    }
}

3.flume接收日誌配置

（1）flume日誌檔案streaming2.conf

agent1.sources=avro-source
agent1.channels=logger-channel
agent1.sinks=kafka-sink

#define source
agent1.sources.avro-source.type=avro
agent1.sources.avro-source.bind=0.0.0.0
agent1.sources.avro-source.port=41414

#define channel
agent1.channels.logger-channel.type=memory

#define sink
agent1.sinks.kafka-sink.type=org.apache.flume.sink.kafka.KafkaSink
agent1.sinks.kafka-sink.topic = streamingtopic
agent1.sinks.kafka-sink.brokerList = bigdata.ibeifeng.com:9092
agent1.sinks.kafka-sink.requiredAcks = 1
agent1.sinks.kafka-sink.batchSize = 20

agent1.sources.avro-source.channels=logger-channel
agent1.sinks.kafka-sink.channel=logger-channel

（2）啟動flume【暫時不啟動，因為kafka還沒有啟動，啟動後不會報錯，但是一旦有資料，就會報錯！】

bin/flume-ng agent --conf conf --conf-file conf/streaming2.conf --name agent1 -Dflume.root.logger=INFO,console

4.kafka接收flume傳遞的資料

（1）啟動zookeeper

（2）啟動kafka server

bin/kafka-server-start.sh -daemon config/server.properties

（3）建立topic

bin/kafka-topics.sh --create --topic streamingtopic --zookeeper bigdata.ibeifeng.com:2181/kafka08 --partitions 1 --replication-factor 1

（4）進行簡單測試，驗證從日誌到kafka的流程

-》開啟flume

bin/flume-ng agent --conf conf --conf-file conf/streaming2.conf --name agent1 -Dflume.root.logger=INFO,console

-》開啟kafka消費者

bin/kafka-console-consumer.sh --topic streamingtopic --zookeeper bigdata.ibeifeng.com:2181/kafka08

（經測試成功！）

5.spark streaming程式碼處理從kafka得到的資訊

（1）程式碼

package Spark

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}


/**
  * Streaming和kafka對接
  */
object KafkaStreamingApp_product {
  def main(args: Array[String]): Unit = {
    if(args.length!=4){
      System.err.println("Usage: KafkaStreamingApp_product <zkQuorum><group><topics><numThreads>")
    }

    val Array(zkQuorum,group,topics,numThreads)=args
    //因為這個是生產環境，所以註釋
    val sparkConf=new SparkConf().setAppName("KafkaStreamingApp_product")
      .setMaster("local[2]")

    val ssc=new StreamingContext(sparkConf,Seconds(5))

    val topicMap=topics.split(",").map((_,numThreads.toInt)).toMap
    //TODO: Spark streaming如何對接kafka
    //參考原始碼createStream
    val messages: ReceiverInputDStream[(String, String)] =KafkaUtils.createStream(ssc,zkQuorum,group,topicMap)
    //取第2個
//    messages.map(_._2).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).print()
    messages.map(_._2).count().print()


    ssc.start()
    ssc.awaitTermination()
  }
}

（2）執行環境配置，新增引數

bigdata.ibeifeng.com:2181/kafka08 test streamingtopic 1

三、測試

1.啟動zk

2.啟動flume

bin/flume-ng agent --conf conf --conf-file conf/streaming2.conf --name agent1 -Dflume.root.logger=INFO,console

3.啟動kafka伺服器

bin/kafka-server-start.sh -daemon config/server.properties

4.啟動日誌生產類LoggerGenerator

5.啟動SparkStreaming類KafkaStreamingApp_product

（經測試，成功！）

SparkStreaming（14）：log4j日誌-flume-kafka-SparkStreaming的整合

一、功能實現模擬log4j的日誌生產，將日誌輸出到flume伺服器。然後，通過flume將日誌資訊輸出到kafka，進而Streaming可以從kafka獲得日誌，並且進行簡單的處理。二、步驟 1.目的：使用log4j將日誌輸按照一定格式輸出，並且傳遞給flume伺服器特定埠接

SparkStreaming（11）：高階資料來源flume-pull方式（生產）

1.環境（1）生產環境 flume1.6.0 spark2.1.0 （2）下載對應依賴備註：一定要將依賴都放入flume的Flume’s classpath內，否則flume執行有問題。（遇到過坑~~~） (i) Custom sink JAR: groupId =

SparkStreaming（10）：高階資料來源flume-push方式（生產）

【參考：http://spark.apache.org/docs/2.1.0/streaming-flume-integration.html】 1.環境 spark2.1.0 flume1.6.0 2.flume的配置檔案flume_push_streaming.

14.3Python程式除錯與測試（3）：輸出日誌到檔案

@輸出日誌到檔案建立一個logging.FileHandler物件配置其日誌級別和格式等資訊新增檔案處理器到logger import logging # 獲取logger物件，設定日誌

springBoot（14）：使用SQL關系型數據庫-事務處理

springboot springboot事務處理一、事務的四個特性（ACID）原子性（Atomicity）：事務是一個原子操作，由一系列動作組成。事務的原子性確保動作要麽全部完成，要麽完全不起作用。一致性（Consistency）：一旦事務完成（不管成功還是失敗），系統必須確保它所建模的業務處

多線程面試題系列（14）：讀者寫者問題繼讀寫鎖SRWLock

線程面試題 oid out 讀者寫者問題五個 lock val ref win7 在第十一篇文章中我們使用事件和一個記錄讀者個數的變量來解決讀者寫者問題。問題雖然得到了解決，但代碼有點復雜。本篇將介紹一種新方法——讀寫鎖SRWLock來解決這一問題。讀寫鎖在對資源進行保

軟件架構設計學習總結（14）：大型網站技術架構（八）網站的安全架構

根據知情提交 pac 請求參數用途 text 避免信息加密從互聯網誕生起，安全威脅就一直伴隨著網站的發展，各種Web攻擊和信息泄露也從未停止。常見的攻擊手段有XSS攻擊、SQL註入、CSRF、Session劫持等。 1、XSS攻擊 XSS攻擊即跨站點腳本攻擊（C

23種設計模式（14）：解釋器模式

end 真的完整 nal alex cli express [] ... 定義：給定一種語言，定義他的文法的一種表示，並定義一個解釋器，該解釋器使用該表示來解釋語言中句子。類型：行為類模式。類圖：解釋器模式是一個比較少用的模式，本人之前也沒有用過這個模式。下面

SparkStreaming（5）：例項-處理socket源資料

1.實現功能： SparkStreaming處理socket源的資料，並進行wordcount的統計。 2.scala程式碼 package Spark import org.apache.spark.SparkConf import org.apache.spark

SparkStreaming（4）：Discretized Streams (DStreams)理解

參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html#discretized-streams-dstreams 1.概念（1）DStreams是一個連續的資料流，可以通過兩種方式產生：資料來源來的輸入

SparkStreaming（8）：windows視窗操作

1.概念在一定的時間間隔（interval）進行一個時間段（window length）內的資料處理。【參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html】 2.核心

SparkStreaming（7）：例項-wordcount統計結果寫入到MySQL

一、功能概述 DStreams的輸出操作，即將DStreams輸出到對應的目的地。輸出操作包括：print、saveAsTextFiles、saveAsObjectFiles、saveAsHadoopFiles、foreachRDD。本例將使用foreachRDD把資料輸出到外部mysql資料庫

SparkStreaming（6）：例項-統計到目前為止累積出現的單詞的個數（updateStateByKey）

1.實現功能現實中，不僅需要統計，當前批次的單詞個數，還需要統計，迄今為止的總的單詞個數。這個就是需要，使用到updateStateByKey運算元。【參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.ht

SparkStreaming（5）：例項-SparkStreaming處理本地或者HDFS檔案

1.實現功能： SparkStreaming處理本地或者HDFS檔案，並進行wordcount的統計。 2.前提開啟：（1）hdfs （2）metastore 3.scala程式碼：（1）本地目錄寫法： file:///E:\\Tools\\WorkspaceforM

SparkStreaming（12）：高階資料來源kafka Receiver方式（生產）

1.準備環境（1）啟動zk bin/zkServer.sh start （2）啟動kafka bin/kafka-server-start.sh -daemon config/server.pr

SparkStreaming（9）：例項-Streaming整合Spark SQL，進行wordcount功能

1.功能實現綜合Spark Streaming和Spark SQL，進行word count的統計。核心理解DStream和RDD相互操作，需要通過使用foreachRDD這個API。 2.程式碼 package Spark import or

SparkStreaming（13）：高階資料來源kafka Direct方式（生產）

【Direct方式，直接從kafka的broker讀取資料，而Receiver方式，從zk獲得偏移量資訊，效能要差一些！】 1.測試環境（1）啟動zk bin/zkServer.sh start （2) 啟動kafka bin/kafka-server-start.sh -da

牛客網線上程式設計（14）：小易喜歡的單詞

題目描述小易喜歡的單詞具有以下特性： 1.單詞每個字母都是大寫字母 2.單詞沒有連續相等的字母 3.單詞沒有形如“xyxy”(這裡的x，y指的都是字母，並且可以相同)這樣的子序列，子序列可能不連續。例如：小易不喜歡"ABBA"，因為這裡有兩個連續的'B' 小易不喜歡"THETXH"，因

SpringBoot學習筆記（14）：使用SpringBootAdmin管理監控你的應用

SpringBoot學習筆記（14）：使用SpringBootAdmin管理監控你的應用 Spring Boot Admin是一個管理和監控Spring Boot應用程式的應用程式。本文參考文件：官方文件：http://codecentric.github.io/spring-boot-

小朋友學經典演算法（14）：回溯法和八皇后問題

一、回溯法回溯法（探索與回溯法）是一種選優搜尋法，又稱為試探法，按選優條件向前搜尋，以達到目標。但當探索到某一步時，發現原先選擇並不優或達不到目標，就退回一步重新選擇，這種走不通就退回再走的技術為回溯法，而滿足回溯條件的某個狀態的點稱為“回溯點”。二、八皇后問題（一）問

SparkStreaming（14）：log4j日誌-flume-kafka-SparkStreaming的整合

一、功能實現

二、步驟

1.目的：

2.產生log4j日誌：

3.flume接收日誌配置

4.kafka接收flume傳遞的資料

5.spark streaming程式碼處理從kafka得到的資訊

三、測試

相關推薦