ALS推薦系統實戰

阿新 • • 發佈：2019-01-08

拿到某超市的銷售資料，將資料整理後得到一年三千萬條交易記錄，想試試用spark中的推薦系統做一下預測

先把資料匯入到HDFS中，資料需要使用者id，商品id，和購買次數，這裡我拿購買次數當作電影推薦系統中的電影評分

HDFS中的資料用":"分割開。如下：

461365:22535:1.0
461365:5059:1.0
461365:5420:4.0
461366:1987:4.0
461366:31911:1.0

進入spark-shell

引入需要的mllib包和日誌的設定

import org.apache.spark.mllib.recommendation.{ALS, Rating,MatrixFactorizationModel}
import org.apache.spark.sql.hive.HiveContext
import org.apache.log4j.{Logger,Level}
import org.apache.spark.mllib.evaluation.{RankingMetrics, RegressionMetrics}
Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)

將資料匯入，並劃分好存入ratings，這裡的rating其實就是購買次數

val data = sc.textFile("/input/rate")
val ratings = data.map(_.split(':') match { case Array(user, item, rate) =>  Rating(user.toInt, item.toInt, rate.toDouble)})

檢視資料規模

scala> val users = ratings.map(_.user).distinct()
users: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[1356] at distinct at <console>:35

scala> val products = ratings.map(_.product).distinct()
products: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[1360] at distinct at <console>:35

scala> println("Got "+ratings.count()+" ratings from "+users.count+" users on "+products.count+" products.")
Got 30299054 ratings from 354172 users on 45786 products.

將資料劃分，我這裡用的8：2，

val splits = ratings.randomSplit(Array(0.8, 0.2))
val training = splits(0)
val test = splits(1)

進行訓練，並設定引數

Rank：對應ALS模型中的因子個數，即矩陣分解出的兩個矩陣的新的行/列數

numIterations：模型迭代最大次數
引數0.01：控制模型的正則化過程，從而控制模型的過擬合情況。

val rank = 30
val numIterations = 12
val model = ALS.train(training, rank, numIterations, 0.01)

然後將訓練結果得到的預測分和原始分合並在一起，算出rmse

val testUsersProducts = test.map { case Rating(user, product, rate) =>
           (user, product)
          }
val predictions = model.predict(testUsersProducts).map { case Rating(user, product, rate) =>
    ((user, product), rate)
}
val ratesAndPreds = ratings.map { case Rating(user, product, rate) =>
  ((user, product), rate)
   }.join(predictions)
val rmse= math.sqrt(ratesAndPreds.map { case ((user, product), (r1, r2)) =>
  val err = (r1 - r2)
  err * err
}.mean())

ALS推薦系統實戰

拿到某超市的銷售資料，將資料整理後得到一年三千萬條交易記錄，想試試用spark中的推薦系統做一下預測先把資料匯入到HDFS中，資料需要使用者id，商品id，和購買次數，這裡我拿購買次數當作電影推薦系統中的電影評分 HDFS中的資料用":"分割開。如下： 461365:22

【推薦系統實戰】：C++實現基於用戶的協同過濾（UserCollaborativeFilter）

color style popu ted std 相似度 abi ear result 好早的時候就打算寫這篇文章，可是還是參加阿裏大數據競賽的第一季三月份的時候實驗就完畢了。硬生生是拖到了十一假期。自己也是醉了。。。找工作不是非常順利，希望寫點東西回想一下知識。然後再

下載基於大數據技術推薦系統實戰教程(Spark ML Spark Streaming Kafka Hadoop Mahout Flume Sqoop Redis)

大數據技術推薦系統推薦系統實戰地址:http://pan.baidu.com/s/1c2tOtwc 密碼:yn2r82課高清完整版，轉一播放碼。互聯網行業是大數據應用最前沿的陣地，目前主流的大數據技術，包括 hadoop，spark等，全部來自於一線互聯網公司。從應用角度講，大數據在互聯網領域主

《推薦系統實戰》第一章好的推薦系統

1.1 什麼是推薦系統個性化推薦系統：一個自動化的工具，它可以分析你的歷史興趣，從龐大的資訊中找到符合你興趣的物品供你選擇。充分研究使用者的興趣正是個性化推薦系統主要解決的問題。推薦系統通過發掘使用者的行為，找到使用者的個性化需求，從而將長尾商品準確地推薦給需要它的使用者，幫助使用者發現

電商大資料專案-推薦系統實戰之推薦演算法

(1)電商大資料專案-推薦系統實戰http://blog.51cto.com/6989066/2325073 （七）推薦系統常用演算法協同過濾演算法協同過濾演算法（Collaborative Filtering：CF）是很常用的一種演算法，在很多電商網站上都有用到。CF演算法包括基於使用者的CF（User-

電商大資料專案（二）-推薦系統實戰之實時分析以及離線分析

電商大資料專案-推薦系統實戰（一）環境搭建以及日誌，人口，商品分析http://blog.51cto.com/6989066/2325073電商大資料專案-推薦系統實戰之推薦演算法http://blog.51cto.com/6989066/2326209電商大資料專案-推薦系統實戰之實時分析以及離線分析htt

讀書筆記《推薦系統實戰》| 推薦系統冷啟動問題

本人將《推薦系統實戰》放在了資源裡，如有需要請前往下載。 3.1 冷啟動問題簡介冷啟動問題的解決方案：提供非個性化的推薦。為新註冊使用者推薦熱門的商品，等使用者資料蒐集到一定程度後，切換到個性化推薦；利用使用者註冊時提供的年齡性別等資料做粗粒度的個性

讀書筆記《推薦系統實戰》| 利用社交網路資料

《推薦系統實戰》這本書的下載地址：《推薦系統實戰》第一章好的推薦系統第二章利用使用者行為資料第三章推薦系統冷啟動問題第四章利用使用者標籤資料第五章利用上下文資訊美國著名的第三方調查

項亮《推薦系統實戰》思維導圖

最近拜讀了項亮博士的《推薦系統實戰》，收穫很大，整理了一系列的部落格。將各章節的連結放在下面，歡迎檢視、交流。本文主要總結了1-6章的主要思路，並思維導圖繪製。《推薦系統實戰》、《集體智慧程式設計》、思維導圖第一章好的推薦系統第二章利用使用者行為資料第三章推薦系統冷

《推薦系統實戰》——基於物品的協同過濾實現

一：物品相似度計算&推薦原始碼（演算法參考項亮《推薦系統實戰》P55）：其他程式碼模組參考我的另外一篇部落格：這裡寫連結內容 def ItemSimilarity(self, train=None): train = se

[大資料專案]-0011-基於大資料技術推薦系統演算法案例實戰視訊教

2018最新最全大資料技術、專案視訊。整套視訊，非那種淘寶雜七雜八網上能免費找到拼湊的亂八七糟的幾年前的不成體系浪費咱們寶貴時間的垃圾，詳細內容如下，視訊高清不加密，需要的聯絡QQ：3164282908（加Q註明51CTO）。 [大資料專案]-0010-基於大資料技術

基於Spark ALS線上推薦系統

所用技術： Bootstrap、flat-ui 、 Servlet、Spark1.4.1、Hadoop2.6.0、JDK 說明：本系統不涉及ssh相關內容，只有簡單的Servlet和JSP、HTML頁面，系統架構相對簡單。系統部署

【備忘】基於Hadoop，Spark大資料技術的推薦系統演算法實戰教程

課程簡介： 2017年最新大資料推薦系統演算法實戰視訊教程，共18.1G容量。附講義、程式碼與練習資料,配套齊全,高清不加密。課程介紹：網際網路行業是大資料應用最前沿的陣地，目前主流的大資料技術，包括 ha

ALS推薦系統實戰

ALS推薦系統實戰

【推薦系統實戰】：C++實現基於用戶的協同過濾（UserCollaborativeFilter）

下載基於大數據技術推薦系統實戰教程(Spark ML Spark Streaming Kafka Hadoop Mahout Flume Sqoop Redis)

推薦系統實戰——冷啟動問題

《推薦系統實戰》第一章好的推薦系統

電商大資料專案-推薦系統實戰之推薦演算法

電商大資料專案（二）-推薦系統實戰之實時分析以及離線分析

讀書筆記《推薦系統實戰》| 推薦系統冷啟動問題

讀書筆記《推薦系統實戰》| 利用社交網路資料

推薦系統實戰(一)

項亮《推薦系統實戰》思維導圖

推薦系統實戰

《推薦系統實戰》——基於物品的協同過濾實現

[大資料專案]-0011-基於大資料技術推薦系統演算法案例實戰視訊教

推薦系統遇上深度學習(十)--GBDT+LR融合方案實戰

基於Spark ALS線上推薦系統

推薦系統遇上深度學習(十)--GBDT+LR融合方案實戰--解決特徵組合問題

推薦系統ALS矩陣分解

【備忘】基於Hadoop，Spark大資料技術的推薦系統演算法實戰教程

推薦系統遇上深度學習(二十)--貝葉斯個性化排序(BPR)演算法原理及實戰

ALS推薦系統實戰

相關推薦