雲星資料---Apache Flink實戰系列(精品版)】：Flink流處理API詳解與程式設計實戰002-Flink基於流的wordcount示例002

阿新 • • 發佈：2019-01-28

三、基於socket的wordcount

1.傳送資料

1.傳送資料命令
    nc -lk 9999 
2.傳送資料內容
    good good study
    day day up

2.處理資料

2.1執行程式


package code.book.stream.socketwc

//0.引用必要的元素
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.windowing.time.Time

object SocketWC {
  def main(args: Array[String]): Unit = {
    //1. 
建立執行環境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //2.定義資料流來源
    val text = env.socketTextStream("qingcheng11", 9999)
    //3.進行wordcount計算
    val counts = text.flatMap(_.toLowerCase.split("\\W+") filter (_.nonEmpty))
      .map((_, 1))
      .keyBy(0)
      .timeWindow(Time.seconds 
(5))
      .sum(1)

    //4.列印結果
    counts.print

    //觸發計算
    env.execute("Window Stream WordCount")
  }
}

2.2執行效果

四、基於kafka的wordcount

1.準備資料

1.1啟動kafka叢集

ssh root@qingcheng11 "${KAFKA_HOME}/bin/kafka-server-start.sh 
${KAFKA_HOME}/config/server.properties  > /dev/null 2>&1 &" 


ssh root@qingcheng12 "${KAFKA_HOME}/bin/kafka-server-start.sh 
${KAFKA_HOME}/config/server.properties  > /dev/null 2>&1 &"

ssh root@qingcheng13 "${KAFKA_HOME}/bin/kafka-server-start.sh 
${KAFKA_HOME}/config/server.properties  > /dev/null 2>&1 &"

1.2傳送資料

1.傳送資料的命令
${KAFKA_HOME}/bin/kafka-console-producer.sh
--topic food 
--broker-list qingcheng11:9092,qingcheng12:9092,qingcheng13:9092

2.傳送資料的內容
spark hadoop flink
flink spark storm

2.處理資料

2.1新增maven依賴

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka-0.9_2.10</artifactId>
    <version>1.1.3</version>
</dependency>

2.2執行程式

package code.book.stream.streamwc

import java.util.Properties

import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer09
import org.apache.flink.streaming.util.serialization.SimpleStringSchema
import org.apache.log4j.{Level, Logger}


object FlinkKafkaStreamingWC {
  def main(args: Array[String]) {
    //1.關閉日誌，可以減少不必要的日誌輸出
    Logger.getLogger("org").setLevel(Level.OFF)

    //2指定kafka資料流的相關資訊
    val zkCluster="qingcheng11,qingcheng12,qingcheng13:2181"
    val kafkaCluster="qingcheng11:9092,qingcheng12:9092,qingcheng13:9092"
    val kafkaTopicName = "food"
    //3.建立流處理環境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    //4.建立kafka資料流
    val properties = new Properties()
    properties.setProperty("bootstrap.servers", kafkaCluster)
    properties.setProperty("zookeeper.connect",zkCluster )
    properties.setProperty("group.id", kafkaTopicName)
    val kafka09=new FlinkKafkaConsumer09[String](kafkaTopicName,new SimpleStringSchema(),properties)
    val text = env.addSource(kafka09).setParallelism(4)

    //5.執行運算
    val counts = text.flatMap(_.toLowerCase.split("\\W+")).map((_, 1)).keyBy(0).sum(1)
    counts.print()
    //6.觸發運算
    env.execute("flink-kafka-wordcunt")
  }
}

2.3執行效果

雲星資料---Apache Flink實戰系列(精品版)】：Flink流處理API詳解與程式設計實戰002-Flink基於流的wordcount示例002

三、基於socket的wordcount 1.傳送資料 1.傳送資料命令 nc -lk 9999 2.傳送資料內容 good good study day day

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink高階特性與高階應用002-Flink的記憶體管理002

二、flink的記憶體管理機制 0.flink的記憶體劃分 1.flink在JVM的heap內有自己的記憶體管理空間。 2.在flink中記憶體被分為三個部分，分別是Unmanaged區域，

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink高階特性與高階應用008-Slot和Parallelism的深入分析003

四、任務槽（task-slot）和槽共享（Slot Sharing） 1.任務槽（Task slot） 1.flink的TM就是執行在不同節點上的JVM程序（process）,這個程序會

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink高階特性與高階應用001-Flink的記憶體管理001

一、基於JVM的大資料生態圈 1.bigdata on jvm 1.現在大多數開源大資料處理框架都是基於jvm的，像 Apache Hadoop,Apache Spark,Apache Hb

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink實戰基礎0015--flink分散式部署0010

五、flink-on-yarn實現原理 1.通過配置資訊找到yarn a.Flink-Yarn-Client(FRC)讀取YARN_CONF_DIR,HADOOP_CONF_DIR或HAD

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink高階特性與高階應用006-Slot和Parallelism的深入分析001

一、flink架構 1.flink是一個主從結構的分散式程式，它由client和cluster兩部分組成。 2.cluster由主節點JobManager（JM）和從節點TaskManager組

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink高階特性與高階應用004-Flink的作業排程情況001

一、作業（Job）和排程（Scheduling） 1.排程（Scheduling） 1.Flink叢集一般有一個或多個TaskManager，每個TaskManager有一個或多個slot來

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink實戰基礎002--flink特性：流處理特性介紹

第二部分：flink的特性一、流處理特性 1.高吞吐，低延時有圖有真相，有比較有差距。且看下圖： 1.flink的吞吐量大 2.flink的延時低 3.flink的配置少

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink高階特性與高階應用015-Flink中廣播變數和分散式快取001

1.flink中的廣播變數 flink支援將變數廣播到worker上，以供程式運算使用。執行程式 package code.book.batch.sinksource.scala i

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink實戰基礎0019--IDEA搭建maven管理的整合開發環境001

一、準備flink的開發環境 1. 建立scala的maven專案 2.輸入專案的基本資訊 3.驗證專案的基本資訊 4.輸入專案名稱 5.生成的目錄結構

【雲星資料---Apache Flink實戰系列(精品版)】：Apache Flink實戰基礎004--flink特性：類庫和API示例

三、類庫和API 1.流處理程式 flink的 DataStream API在流處理的業務場景下，支援多種資料轉換，支援使用者自定義狀態的操作，支援靈活的視窗操作！示例程式：

雲星資料---Scala實戰系列(精品版)】：Scala入門教程001-使用Intellij IDEA建立scala工程

1.建立Scala工程選擇[Create New Porject] 選擇,建立[scala]專案,選擇【next】輸入專案名稱，選擇【finish】進入下面的視窗。左側是工程結構，中間是快捷鍵提示！ 2.建立

雲星資料---Scala實戰系列(精品版)】：Scala入門教程018-Scala實戰原始碼-Scala內部類

Scala 內部類 package scala_learn.demo02_oop /** * Created by liguohua on 2017/8/1. */ class Outer(

雲星資料---Scala實戰系列(精品版)】：Scala入門教程054-Scala實戰原始碼-Scala implicit 操作05

Scala implicit 操作05 package scala_learn.demo12_Implicit /** * Created by liguohua on 2017/3/1.

雲星資料---Scala實戰系列(精品版)】：Scala入門教程060-Scala實戰原始碼-Scala package 包物件

Scala 包物件包中類 package scala_learn.demo17_package /** * Created by liguohua on 2017/8/2. */ pack

雲星資料---Scala實戰系列(精品版)】：Scala入門教程052-Scala實戰原始碼-Scala implicit 操作03

Scala implicit 操作03 package scala_learn.demo12_Implicit /** * Created by liguohua on 2017/3/1.

雲星資料---Scala實戰系列(精品版)】：Scala入門教程048-Scala實戰原始碼-Scala Match操作

Scala Match操作 package scala_learn.demo11_Collection /** * Created by liguohua on 2017/7/31. */

【雲星資料---Scala實戰系列(精品版)】：Scala入門教程062-Scala實戰原始碼-訪問許可權

package scala.demo18_accessModifier /** * Created by liguohua on 2015/8/2. */ /** * 1.訪問許可權有private和protected兩種 * 1.1.pri

雲星資料---Scala實戰系列(精品版)】：Scala入門教程036-Scala實戰原始碼-Scala match語句01

Scala match語句 scala中的match語句用來在一個列表中選擇某一個分支來執行分支的語句塊，類似於其他語言中的swtich..case語句 package scala_learn.

雲星資料---Scala實戰系列(精品版)】：Scala入門教程034-Scala實戰原始碼-Scala apply方法02 初始化物件

Scala 呼叫apply() 初始化物件 package scala_learn.demo08_Apply /** * Created by liguohua on 2017/3/1. *

雲星資料---Apache Flink實戰系列(精品版)】：Flink流處理API詳解與程式設計實戰002-Flink基於流的wordcount示例002

三、基於socket的wordcount

1.傳送資料

2.處理資料

2.1執行程式

2.2執行效果

四、基於kafka的wordcount

1.準備資料

1.1啟動kafka叢集

1.2傳送資料

2.處理資料

2.1新增maven依賴

2.2執行程式

2.3執行效果

相關推薦