利用Spark sql操作Hdfs資料與Mysql資料，sql視窗函式的使用

阿新 • • 發佈：2019-02-07

需求說明：

對熱門商品進行統計

根據商品的點選資料，統計出各個區域的銷量排行TOPK 產品

輸入：開始時間與結束時間

輸出：每個城市的銷量排行TOP K 產品

地區級別	地區名稱	產品名稱	點選量	產品型別
A	西南片區	霧霾口罩	1000000	第三方
A	西南片區	霧霾口罩	1000000	第三方
A	西南片區	霧霾口罩	1000000	第三方
B	華中地區	蘋果	1000	自營
B	華中地區	蘋果	1000	自營
B	華中地區	蘋果	1000	自營

涉及表：

使用者行為表（檔案日誌） city_id , product_id,點選量

地區表(mysql)格式如下：

產品表(mysql)格式如下：

使用 spark core 與spark sql實現

主要技術點： Spark sql操作Hdfs資料與Mysql資料，sql視窗函式的使用，dataFrame的使用

關於spark讀取mysql（地區表，產品表）程式碼如下：

/**
    *獲取mysql表資料，並註冊為spark臨時表
    */
  def loadMysqlData(): Unit = {
    //建立連線mysql連線
    val jdbcOptions = Map("url" -> "jdbc:mysql://192.168.100.212:3306/hxh?user=root&password=123456", "dbtable" -> "areas")
    val reader = sqlContext.read.format("jdbc")
    val jdbcOptions2 = Map("url" -> "jdbc:mysql://192.168.100.212:3306/hxh?user=root&password=123456", "dbtable" -> "product")
    val reader2 = sqlContext.read.format("jdbc")
    //把查詢出來的表註冊為臨時表
      reader.options(jdbcOptions).load().registerTempTable("spark_areas")
      reader2.options(jdbcOptions2).load().registerTempTable("spark_product")
  }

關於spark統計地區、點選量程式碼如下：

package com.hxh

import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.{SparkConf, SparkContext}


object UserAnalysis {
  val conf = new SparkConf().setAppName("test").setMaster("local[*]")
  val sparkContext = new SparkContext(conf)
  val sqlContext = new HiveContext(sparkContext)

  def main(args: Array[String]): Unit = {
    sqlContext.sql("use bigdata")
    sqlContext.sql("select * from t_pages_click ").registerTempTable("tPagesClick")
    loadMysqlData()
    areaNameCount()
    areaRowCount()
    sqlContext.sql("select areaLevel,areaName,productName,sumClick,extendName " +
      "from click_row_count " +
      "where numSum<=3 " +
      "order by areaLevel asc,sumClick desc" ).show(50)

  }
  def areaRowCount(): Unit ={
    sqlContext.sql("select " +
      "CASE WHEN areaName IN ( '華北地區', '東北地區') THEN 'A' "+
      " WHEN areaName IN ( '華東地區', '華中地區') THEN 'B' "+
      " WHEN areaName IN ( '華南地區', '西南地區') THEN 'C' "+
      "WHEN areaName IN ('西北地區') THEN 'D' "+
      "ELSE'資料錯誤' END as areaLevel,areaName,productName," +
      "sumClick," +
      "Row_Number() OVER (PARTITION BY areaName order by sumClick DESC) AS numSum," +
      "if(extendInfo='1','自營','第三方') extendName "+
      "from areaNameCount ").registerTempTable("click_row_count")
  }
  /**
    * 按地區統計點選量
    */
  def areaNameCount(): Unit ={
    sqlContext.sql("select areas.area_name areaName," +
      "product.product_name productName,count(1) sumClick," +
      "product.extend_info extendInfo from tPagesClick " +
      "join spark_areas areas " +
      "on  tPagesClick.city_id=areas.city_id " +
      "join spark_product  product " +
      "on  product.product_id=tPagesClick.click_product_id " +
      "group by areas.area_name,product.product_name,product.extend_info").registerTempTable("areaNameCount")
  }

結果執行結果如下：

利用Spark sql操作Hdfs資料與Mysql資料，sql視窗函式的使用

需求說明：對熱門商品進行統計根據商品的點選資料，統計出各個區域的銷量排行TOPK 產品輸入：開始時間與結束時間

sql效能優化第一篇之分頁資料與count資料一次性獲取

相信大部分人都會遇到：在資料庫的資料量很大時，分頁需要幾秒鐘才會全部完成；包括分頁list的獲取和count的獲取。那我們完全可以將這兩步放到一次sql去執行獲取，減少一半的查詢時間。這裡get到sql_calc_found_rows和SELECT FOUND_ROWS()這兩個知識點。看程式碼

Java與MySQL資料對接時的時間型別的資料

使用java.util.Date與MySQL資料庫的時間欄位對接時，獲取到的時間是格林格式的，還需要進行一下轉換才能使用為本地時間，偶然發現一篇部落格，這引用一下java.sql.date 以前從MySQL中查詢出來的時間日期型別，都放在java.util.Date型別裡面了。這樣帶

滴滴雲使用 DataX 實現 Hive 與 MySQL 資料傳輸

1. DataX 簡介： DataX 是阿里巴巴集團內被廣泛使用的離線資料同步工具/平臺，實現包括 MySQL、Oracle、SQLServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各種異構

sql server和my sql 命令（語句）的區別，sql server與mysql的比較

sql與mysql的比較 1、連線字串 sql :Initial Catalog(database)=x; --資料庫名稱 Data S

【Redis】3.Redis與MySQL資料一致性的思考

Redis特性先列舉一下Redis的特點：讀寫效能優異持久化資料型別豐富單執行緒資料自動過期釋出訂閱分散式作為快取使用時，一般有兩種方式更新資料： 1、讀取前，先去讀Redis，如果沒有資料，讀取資料庫，將資料拉入Redis。 2、修改資料時

mysql保障資料一致性：redis與mysql資料同步（二）

應用Redis實現資料的讀寫，同時利用佇列處理器定時將資料寫入mysql，此種情況存在的問題主要是如何保證mysql與redis的資料同步，二者資料同步的關鍵在於mysql資料庫中主鍵，方案是在redis啟動時區mysql讀取所有表鍵值存入redis中，往redis寫資料是

使用mybatis查出資料與mysql查出來的不一致(order by)

最近在練習easyui的時候做到datagrid的時候用到點選欄位進行降序,升序的時候發現無論怎麼點資料都不會變, 開始以為是easyui-datagrid中配置錯了,改了半天也沒有發現. 然後去看了下mybatis發出的sql和查詢結果. 查出來才發現不是easyui

Django 模型與 Mysql 資料型別對應

Django 1.11.9 檔案路徑：site-packages\django\db\backends\mysql\base.py–class DatabaseWrapper _data_types = { ‘AutoField

使用sqoop將資料從hdfs中匯入mysql時，卡在INFO mapreduce.Job: map 100% reduce 0%的解決辦法

最近在將hdfs中已經處理好的資料匯入到mysql的時候遇到這麼一個現象，當任務執行到 INFO mapreduce.Job: map 100% reduce 0% mapreduce任務卡在map100% ，任何reduce不繼續執行。總結了以下解決辦法：一，如果沒

在mySQl中，SQL語言允許使用萬用字元進行字串匹配的操作，其中“%”不能表示（）。A.0個字元B.一個字元C.多個字元D.搜尋關鍵字中包含字元“%”

加粗樣式@TOC 歡迎使用Markdown編輯器你好！這是你第一次使用 Markdown編輯器所展示的歡迎頁。如果你想學習如何使用Markdown編輯器, 可以仔細閱讀這篇文章，瞭解一下Markdown的基本語法知識。新的改變我們對Markdown編輯

如何利用LoadRunner最高效的批量製造MySQL資料

批量製造資料的方法有很多種，也有許多專業的工具，但是都算不上高效，針對MySQL的批量插入資料，目前認為最高效的方式是通過執行JAVA程式碼（通過設定事務為非自動提交，以executeBatch批處理提交大量插入事務）來實現，但是JAVA的靈活引數化和大使用者量分散式併發執行

Spring Cloud(七)：鏈路追蹤Sleuth-Zipkin與Mysql資料的持久化

一：回顧上節我們瞭解到Spring Cloud Sleuth可以實現對服務的追蹤，以及和Zipkin結合，可以視覺化服務追蹤介面和依賴等相關資訊。遺憾的是資料不能持久化。二：專案的構建構建三個專案sleuth-stream-server,sleu

scala 在 spark 中操作 hdfs

對於org.apache.hadoop.fs.Path來說， path.getName只是檔名，不包括路徑 path.getParent也只是父檔案的檔名，同樣不包括路徑 path.toString才是檔案的全路徑名建立檔案

MySQL中update修改資料與原資料相同會再次執行嗎

開發十年，就只剩下這套架構體系了！ >>>

1.4 資料庫和常用SQL語句（正文）——MySQL資料庫命令和SQL語句

前面我們已經講述了，登入時，我們使用mysql –u root –p命令進行，此時如果設定了密碼，則需要輸入密碼。輸入密碼後即進入MySQL的操作介面，此時，命令列窗體左側顯示“mysql>”表示此時可接受mysql命令。（1）列出全部資料庫命令我們使用“show databases;”命令列

通用財經數據傳輸與監控平臺1.0（泛型，接口與基類，Sql,Ibatis,Awt,Swing）

自動構造 sea 獲得 doc stat dup per hot 導言本系統通過訪問url接口，實現財經數據的獲取以及實時的更新到用戶本地數據庫的功能，並且配備了實時的數據傳輸的監控平臺。通過本系統，用戶可以的得到並保存所需的財經數據（超過200張表），並能實時的查

柵格資料與向量資料

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

JQuery中使用select2外掛功能之自動完成下拉框動態載入匹配(本地資料與遠端資料結合)

前言最近專案中遇到一個問題：前端載入頁面的時候某些頁面載入速度很慢，耗時很久；有些頁面載入的飛快；因為上面所說的頁面都是由同一個程式動態生成的，利用多執行緒同步機制完成不同的前端頁面；因此當時就斷定不是程式的大問題；應該是處理資料部分存在問題；在chrome瀏覽器一測；還真的是大資料的問題

未明學院：R語言入門必備學習資料與安裝包，推薦！

R語言是什麼？為什麼要學R語言？ R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、原始碼開放的軟體，是一個用於統計計算和統計製圖的優秀工具。 R語言與Python已經成為資料科學的專用語言，在當前這個以資料為重的時代，掌握R這一門專業資料科學語言的重要性不言而喻。

利用Spark sql操作Hdfs資料與Mysql資料，sql視窗函式的使用

相關推薦