sparkStreaming裡面使用文字分析模型（2.0.1）

阿新 • • 發佈：2019-02-05

如果使用模型的建立話請參考另一篇部落格建模地址
功能：接收來自kafka的資料，資料是一篇文章，來判斷文章的型別，把判斷的結果一併儲存到hbase，並把文章建立索引（沒有程式碼只有一個空殼，可以自己實現，以後有機會了可能會補上），
程式碼實現：

package spark.mllib
import org.apache.spark.ml.PipelineModel
import org.apache.spark.ml.feature.{HashingTF, IDF, LabeledPoint, Tokenizer}
import org.apache.spark.ml.linalg.{Vector, Vectors}
import org.apache 
.spark.SparkConf
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream
import org.apache.spark.SparkConf
import org.apache 
.spark.streaming.api.java.JavaPairReceiverInputDStream.fromReceiverInputDStream
import org.apache.spark.rdd.RDD
import org.apache.spark.ml.classification.NaiveBayesModel
import org.omg.CORBA_2_3.portable.OutputStream
import java.io.FileOutputStream

class UseModel1 {

}
object UseModel1{
  //流程程式碼
  def main(args: Array[String]): Unit = {
    val Array(zkQuorum, group, topics, numThreads) =Array("192.168.10.199:2181" 
,"order","order","2");
    val conf = new SparkConf().setAppName("useModel").setMaster("local[4]");
    val ssc = getStreamingContext(conf, 10);
    val dstreams = getKafkaDstream(ssc, topics, zkQuorum, group, numThreads);
    val dstream = dstreams.inputDStream.map(_._2);
    dstream.persist()
    //測試
    dstream.print()
    //如果能判斷不為空就更好了
    dstream.foreachRDD(rdd =>everyRDD(rdd))
    ssc.start()
    ssc.awaitTermination()
  }




   //得到StreamingContext
  def getStreamingContext(conf:SparkConf,secend:Int):StreamingContext = {
    return new StreamingContext(conf, Seconds(secend))
  }

  //得到sparkSession
  def getSparkSession(conf:SparkConf): SparkSession = {
    val spark = SparkSession.builder()
          .config(conf)
          .config("spark.sql.warehouse.dir", "warehouse/dir")
          .getOrCreate()
    return spark;
  }

  //得到kafkaDStream
  def getKafkaDstream(ssc:StreamingContext,topics:String,zkQuorum:String,group:String,numThreads:String):JavaPairReceiverInputDStream[String,String] ={
     ssc.checkpoint("directory")
     val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap;
     val stream = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap)
     return stream;
  }

  //檔案儲存測試
  def savaString(str:String):Unit={
    val out = new FileOutputStream("D:\\decstop\\file.txt",true);
    out.write(str.getBytes)
    out.flush()
    out.close()
  }

  //每一個rdd做動作
  def everyRDD(rdd:RDD[String]){
    val sameModel = NaiveBayesModel.load("resoult")

    val spark = getSparkSession(rdd.context.getConf)
    import spark.implicits._
    val rddDF = rdd.map { line => (1,line) }.toDF("label","text").persist()
    //rddDF.show()
    val tokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")
    val tokenizerRDD = tokenizer.transform(rddDF)
    //tokenizerRDD.show(false)

    val hashingTF =
      new HashingTF().setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(100)
    val hashingTFRDD = hashingTF.transform(tokenizerRDD) 

    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
    val idfModel = idf.fit(hashingTFRDD)
    val rescaledData = idfModel.transform(hashingTFRDD)
    //rescaledData.show(false)
    //轉化為貝葉斯需要的格式
    val useDataRdd = rescaledData.select($"label", $"features").map{
      case Row(label:Int , features:Vector) =>
        LabeledPoint(label.toDouble, Vectors.dense(features.toArray))
    }
    val predictions = sameModel.transform(useDataRdd)
    predictions.persist()
    //predictions.show(false)
    //參照下面可以實現各種的邏輯，可以把下面的儲存，建索引都加上
    predictions.select($"label",$"prediction").foreach { x => savaString((""+x.getAs("label")+" "+x.getAs("prediction")+"\n\r")) }

    //測試
    predictions.createOrReplaceTempView("prediction")
    rddDF.createOrReplaceTempView("atical")

    //spark.sql("select p.label,p.prediction,a.text from prediction p,atical a where p.label=a.label").select(col, cols)


  }

  //簡歷索引 主要的建立索引的有hbase_rowKay(time) aothor title article
  def buiderIndex(){}

  //儲存到hbase 
  def savaToHbase(){

  }

  //傳送到下一個kafka 傳送的資料 time 正輿情數量 負面輿情數量 百分比 是否報警 

  def sendToKafka(){

  }


}

sparkStreaming裡面使用文字分析模型（2.0.1）

如果使用模型的建立話請參考另一篇部落格建模地址功能：接收來自kafka的資料，資料是一篇文章，來判斷文章的型別，把判斷的結果一併儲存到hbase，並把文章建立索引（沒有程式碼只有一個空殼，可以自己實現，以後有機會了可能會補上），程式碼實現： pac

jq源碼（2.0.3）

gpo seh appendto name str body round title jquery var li = $("<li>",{title:"123",css:{"background":"red"}}); li.appendTo($("ul"))st

springboot（2.0以上） --數據源切換時報錯

.class 什麽但是 upd action clas converter efi rop 在進行數據源切換時spring.datasource.type類型根據源碼所給的默認值修改後依然報錯先看源碼：標色部分，就是springboot所給的數據源，正常來

cocos2d-x之碼農工作筆記 CCNode常用函式（2.0.4）

//版本cocos2d-x2.0.4 CCNode* node =CCNode::create();//生產一個CCNode* node->getZOrder();//獲取節點繪製的順序 node->getPosition();//獲取節點在

如何使用reCaptcha（2.0版本）來做網站驗證碼

reCaptcha是Google開發的驗證碼工具。使用十分簡單，本文介紹的是其2.0版本的使用方法。登陸你的Google賬戶，沒有的話是用不了的。在這裡來申請一對key ，如下圖一個Google

vue-cli版本更新（2.9.1）問題記錄

cnblogs ejs log 網上 row 不能 9.1 topic png 重新安裝了nodejs以後，我也重新下載安裝了vue-cli準備寫一個新的練手項目。當我修改好默認端口後，啟動server服務，發現默認瀏覽器不能自動打開頁面；控制臺打印也變成這樣了；‘npm

vue-cli版本更新（2.9.1）問題記錄-2

cli index -h 節奏顯示 localhost 查找 ios1 訪問今天想把做好的頁面放在手機端瀏覽，發現新版的vue-cli無論在PC還是手機都只能用localhost訪問（127.0.0.1除外）.....（這樣還怎麽讓我用手機吃雞了！TT），於是我在網上查

PHP 圖片合成（2合1）

原文連結https://www.cnblogs.com/fengms/p/5422070.html /** * 圖片合併 * */ ob_clean(); header('Content-type:image/png'); //如果遇到問題需要找bug，把head

libevent原始碼學習研究（libevent-0.1）

<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">想學習研究libevent怎麼設計的，學習它的思想，學習它的設計，奈何自

求135*7（2N-1）的值

EventBus原始碼分析（四）：執行緒模型分析（2.4版本）

EventBus有四種執行緒模型 PostThread模式不需執行緒切換，直接在釋出者執行緒進行事件處理。 MainThread模式分類討論：釋出者執行緒是主執行緒則直接呼叫事件處理方法，否則通過Handler進行執行緒切換，切換到主執行緒處理事件，該模

Oracle 10g 10.2.0.1 在Oracle Linux 5.4 32Bit RAC安裝手冊（一抹曦陽）

oracl track microsoft sun msu ica http net ref Oracle 10g 10.2.0.1 在Oracle Linux 5.4 32Bit RAC安裝手冊（一抹曦陽）.pdf下載地址，step by step

Cisco模擬器GNS3（2.0.0b4版本）安裝和配置

設備適用於實驗交換機運行時裏的 https sco style GNS3（2.0.0b4版本）（適用於CCNA和CCNP）下載地址：https://www.gns3.com/software 包含GNS3.exe和GSN3 VM 註意下載

Asp.net core 2.0.1 Razor 的使用學習筆記（一）

提升完成後安全 provider razor 官方 one text .cn 環境：vs2017 版本：15.5.6 這裏說明下， Razor頁面模式跟mvc出現了嚴重的不同。正如微軟官方說的一樣“Razor 頁面是 ASP.NET Core MVC 的一

Asp.net core 2.0.1 Razor 的使用學習筆記（三）

post 應用程序新的 entity gin start 密碼強度 ice httponly ASP.net core 2.0.1 中 asp.net identity 2.0.1 的基本使用（二）—用戶賬戶及cookie配置修改用戶賬戶及cookie配置

Python入門 - 2（真0基礎）

上鎖 ... 新功能針對解決方案 target 知識點但是 param 一前言上一章說了那麽多，不知道大家是否有躍躍欲試的沖動。說實話，編程就像英語一樣，只是一門語言，如果不用出來，能力會衰退。就像荒島沒人對話，時間長了很可能就不會說話了。如果不能自己寫出來，永

Coursera概率圖模型（Probabilistic Graphical Models）第一周編程作業分析

期望 and find 不同的列表 mali 一周模型 course Computing probability queries in a Bayesian network 計算貝葉斯網絡中的概率查詢 1.基礎因子操作作業中因子的結構 phi =

Coursera概率圖模型（Probabilistic Graphical Models）第四周編程作業分析

map tel ica join 正常最大化 expected 聯合 else Decision Making 作決策這一周的內容在老版本的CS228課程中，是作為第六周的一個小節講的（老版本的CS229只有9周的課程），而在概率圖模型的教材裏邊對應的是第22章

區塊鏈教程Fabric1.0原始碼分析flogging（Fabric日誌系統）

　　區塊鏈教程Fabric1.0原始碼分析flogging（Fabric日誌系統），2018年下半年，區塊鏈行業正逐漸褪去發展之初的浮躁、迴歸理性，表面上看相關人才需求與身價似乎正在回落。但事實上，正是初期泡沫的漸退，讓人們更多的關注點放在了區塊鏈真正的技術之上。 Fabric 1.0原始碼筆記之 flo

vue-router（2.0）之什麼是路由以及使用步驟（筆記）

前端路由：在web開發中，路由是指根據url分配到對應的處理程式 vue-router: 通過管理url實現url和元件的對應和通過url進行元件之間的切換可以做單頁面應用（SPA）：載入單個HTML頁面，並在使用者與應用程式互動時動態更新該頁面 vue-router的使

sparkStreaming裡面使用文字分析模型（2.0.1）

相關推薦