使用spark訓練LR模型

阿新 • • 發佈：2019-01-09

最近在工作之餘參加了一個CTR預估的比賽，CTR預估是一個成熟又經典的問題，工業界目前使用的主流方案仍然是LR+海量特徵。趁著這一次比賽的機會，正好抱著學習的心態嘗試著學習用spark叢集來訓練一下LR。

在學校的時候大家訓練模型一般都是用python+pandas+numpy+sklearn，這一套工具在單機的環境下非常的簡單易學，但是面對海量資料或者高維稀疏矩陣的計算，就顯得無能為力。

相比之下，spark作為分散式計算框架，使用者操作起來的感覺更多是，雖然笨重，但是算得快啊。

spark提供了兩套機器學習的庫，mllib和ml。前者主要適用於RDD的處理，而後者主要適用於dataframe的處理。

目前spark的使用者中基於spark.dataframe已經成為了主流，mllib這個庫也不再維護，轉向更新ml這個庫。

spark上支援cpp、java、python和scala，其中scala是spark的原生語言，本文就以scala為例，訓練了一個非常簡單的LR模型。

import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator
import org.apache.spark.ml.{Pipeline, PipelineStage}
import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer, VectorAssembler}
import org.apache.spark.sql.SparkSession
import org.apache.spark.ml.linalg.Vectors

import scala.collection.mutable.ListBuffer

object newtrainLR {

  val spark = SparkSession.builder().appName("LR-Predict").getOrCreate()
//資料讀入
  val trainPath = "../train_with_hour.csv"

  val testPath = "../test_with_hour.csv"

  val trainDF = spark.read.format("csv").option("header", "true").load(trainPath)

  val testDF = spark.read.format("csv").option("header", "true").load(testPath)

  val newTrainDF = trainDF.drop("_c0", "Unnamed: 0", "time", "city", "app_paid").withColumn("flag", lit(1))

  val newTestDF = testDF.drop("_c0", "Unnamed: 0", "time", "city").
    withColumn("click", lit(3)).
    withColumn("flag", lit(2))

  //合併train、test，一起做one-hot編碼
  val allDF = newTrainDF.union(newTestDF)
  //獲取列名array
  val colNameDF = allDF.drop("flag", "click")

  // 要進行OneHotEncoder編碼的欄位
  val categoricalColumns = colNameDF.columns
  //採用Pileline方式處理機器學習流程
  val stagesArray = new ListBuffer[PipelineStage]()
  for (cate <- categoricalColumns) {
    //使用StringIndexer 建立類別索引
    val indexer = new StringIndexer().setInputCol(cate).setOutputCol(s"${cate}Index")
    // 使用OneHotEncoder將分類變數轉換為二進位制稀疏向量
    val encoder = new OneHotEncoder().setInputCol(indexer.getOutputCol).setOutputCol(s"${cate}classVec")
    stagesArray.append(indexer, encoder)
  }

  val assemblerInputs = categoricalColumns.map(_ + "classVec")
  // 使用VectorAssembler將所有特徵轉換為一個向量
  val assembler = new VectorAssembler().setInputCols(assemblerInputs).setOutputCol("features")

//使用pipeline批處理
  val pipeline = new Pipeline()
  pipeline.setStages(stagesArray.toArray)
  val pipelineModel = pipeline.fit(allDF)
  val dataset = pipelineModel.transform(allDF)


  val newDF = dataset.select("click", "features", "flag")

//拆分train、test
  val processedTrain = newDF.filter(col("flag") === 1).drop("flag")
  val processedTest = newDF.filter(col("flag") === 2).drop("click", "flag")


  //處理label列
  val indexer2Click = new StringIndexer().setInputCol("click").setOutputCol("ctr")
  val finalTrainDF = indexer2Click.fit(processedTrain).transform(processedTrain).drop("click")


  //隨機分割測試集和訓練集資料
  val Array(trainingDF, testDF) = finalTrainDF.randomSplit(Array(0.7, 0.3), seed = 1)
  println(s"trainingDF size=${trainingDF.count()},testDF size=${testDF.count()}")
  val lrModel = new LogisticRegression().
    setLabelCol("ctr").
    setFeaturesCol("features").
    setMaxIter(10000).
    setThreshold(0.5).
    setRegParam(0.15).
    fit(trainingDF)
  val predictions = lrModel.transform(testDF).select($"ctr".as("label"), "features", “rawPrediction", "probability", "prediction")

  //使用BinaryClassificationEvaluator來評價我們的模型
  val evaluator = new BinaryClassificationEvaluator()
  evaluator.setMetricName("areaUnderROC")
  val auc = evaluator.evaluate(predictions)


  val newprediction = lrModel.transform(processedTest).select("probability")

//取出預測為1的probability
  val reseult2 = newprediction.map(line => {
    val dense = line.get(line.fieldIndex("probability")).asInstanceOf[org.apache.spark.ml.linalg.DenseVector]
    val y = dense(1).toString
    (y)
  }).toDF("pro2ture")



  reseult2.repartition(1).write.text(“../firstLrResultStr")

使用spark訓練LR模型

最近在工作之餘參加了一個CTR預估的比賽，CTR預估是一個成熟又經典的問題，工業界目前使用的主流方案仍然是LR+海量特徵。趁著這一次比賽的機會，正好抱著學習的心態嘗試著學習用spark叢集來訓練一下LR。在學校的時候大家訓練模型一般都是用python+pandas+numpy+skle

Python statsmodel包訓練LR模型

Python中訓練LR模型一般使用sklearn包，輸出模型報告和其他機器學習方法一樣。但從統計背景出發，想看更詳細的報告，statsmodel包可以幫助實現。 1.訓練模型 import statsmodels.api as sm from statsmode

在Java Web中使用Spark MLlib訓練的模型

PMML是一種通用的配置檔案，只要遵循標準的配置檔案，就可以在Spark中訓練機器學習模型，然後再web介面端去使用。目前應用最廣的就是基於Jpmml來載入模型在javaweb中應用，這樣就可以實現跨平臺的機器學習應用了。訓練模型首先在spark MLlib中使用mllib包下的邏輯迴歸

Spark之訓練分類模型練習（1）

（）本博文為 spark機器學習第5章學習筆記。所用資料下載地址為：實驗資料集train.tsv 各列的資料意義為： “url” “urlid” “boilerplate” “alchemy_category” “alchemy_

Spark之訓練分類模型練習（2）

上接博文。 1 改進模型及引數調優 1.1 數值特徵標準化使用RowMatrix類計算列的統計量。每一行為某一樣本的特徵向量 import org.apache.spark.mllib.linalg.distributed.RowMatrix

Spark 編程模型(中)

tool irf split exe too rdd count pil 取數先在IDEA新建一個maven項目我這裏用的是jdk1.8,選擇相應的骨架這裏選擇本地在window下安裝的maven 新的項目創建成功我的開始pom.xml

Spark 編程模型（下）

spa pan -s mage 編程編程模型 rdd alt img

Spark學習之路（十一）SparkCore的調優之Spark內存模型

精準規模 memory 此外結構定義申請管理方式存儲內部摘抄自：https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index

利用KNIME建立Spark Machine learning 模型 1：開發環境搭建

大數據分析 KNIME Machine Learning Spark 建模１、Knime Analytics　安裝從官方網站下載合適的版本　https://www.knime.com/downloads 將下載的安裝包在安裝路徑解壓　https://www.knime.com/insta

PyQt訓練BP模型時，顯示waiting動圖（多線程）

entropy series optimize 目錄分享 PE 技術分享 eve http 1、實現效果 2、相關代碼實現BP訓練模型的線程類 1 class WorkThread(QtCore.QThread): 2 finish_trigger =

Spark 編程模型(上)

導致內容 val net 什麽是元素如果 ont cat 初識RDD 什麽是RDD？定義:Resilient distributed datasets (RDD), an efficient, general-purpose and fault-tolerant

#####好好好好####Keras深度神經網路訓練分類模型的四種方法

Github程式碼： Keras樣例解析歡迎光臨我的部落格：https://gaussic.github.io/2017/03/03/imdb-sentiment-classification/ (轉載請註明出處：https://gaussic.github.io) Keras的官方E

Tensorflow.js執行Python下訓練的模型

一、引言這兩天的專案需要用到Tensorflow.js來實現一個AI，儘管說Tensorflow.js本身是有訓練模型的功能的，不過考慮到javascript這個東西載入資源要考慮跨域問題等種種因素。。最終還是決定使用python的tensorflow來訓練模型，然後利用js端來使用模型進行運

特徵提取使用已有的卷積基（VGG16）訓練微型模型

程式碼是《Python深度學習》上的，自己敲一遍看看，我自己的聯想拯救者跑起來都比較慢，GPU will be better! # -*- coding: utf-8 -*- """ Created on Tue Oct 30 22:04:30 2018 @author: Lxiao217 "

caffe訓練後模型測試

# coding:utf-8 import sys import numpy as np sys.path.append('/home/hadoop/caffe/python') import caffe WEIGHTS_FILE = '/home/hadoop/桌面/eye_data3/

Spark Mlib(五)用spark n元模型

通常在NLP中，人們基於一定的語料庫，可以利用N-Gram來預計或者評估一個句子是否合理。另外一方面，N-Gram的另外一個作用是用來評估兩個字串之間的差異程度。下面是spark官網（http://spark.apache.org/docs/latest/ml-features.html#t

Spark Mlib(三)用spark訓練詞向量

自然語言處理中，在詞的表示上，向量的方式無疑是最流行的一種。它可以作為神經網路的輸入，也可直接用來計算。比如計算兩個詞的相似度時，就可以用這兩個詞向量的距離來衡量。詞向量的訓練需要大規模的語料，從而帶來的是比較長的訓練時間。spark框架基於記憶體計算，有忘加快詞向量的訓練速度。以下是sp

【Language model】使用RNN LSTM訓練語言模型寫出45°角仰望星空的文章

開篇這篇文章主要是實戰內容，不涉及一些原理介紹，原理介紹為大家提供一些比較好的連結： 1. Understanding LSTM Networks : RNN與LSTM最為著名的文章，貼圖和內容都恰到好處，為研究人員提供很好的參考價值。中文漢化版：（譯

比對在訓練CNN模型任務下ECS伺服器和GPU伺服器的速度差異

人工智慧已經是當下一大熱點，各個行業都在探討人工智慧將為自身帶來怎樣的改變，包括出行、居家、安全等不同方面，我們都可以看到人工智慧的應用可能性。在這樣的趨勢下，很多公司開始加入人工智慧的開發研究當中。但是基於大資料、深度學習的人工智慧技術，需要強大的計算能力來支援。一般的物理伺服器或雲端的ec

PyTorch中使用預訓練的模型初始化網路的一部分引數(增減網路層，修改某層引數等) 固定引數

在預訓練網路的基礎上，修改部分層得到自己的網路，通常我們需要解決的問題包括： 1. 從預訓練的模型載入引數 2. 對新網路兩部分設定不同的學習率，主要訓練自己新增的層一. 載入引數的方法：載入引數可以參考apaszke推薦的做法，即刪除與當前mo

使用spark訓練LR模型

相關推薦