大數據入門第二十二天——spark（三）自定義分區、排序與查找

阿新 • • 發佈：2018-04-03

get buffer arr clas ron arm scala mut all

一、自定義分區

　　1.概述

　　　　默認的是Hash的分區策略，這點和Hadoop是類似的，具體的分區介紹，參見：https://blog.csdn.net/high2011/article/details/68491115

　　2.實現

package cn.itcast.spark.day3

import java.net.URL
import org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}
import scala.collection.mutable

/**
  * Created by root on 2016/5/18.
   
*/
object UrlCountPartition {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("UrlCountPartition").setMaster("local[2]")
    val sc = new SparkContext(conf)

    //rdd1將數據切分，元組中放的是（URL， 1）
    val rdd1 = sc.textFile("c://itcast.log").map(line => {
      val f = line.split("\t")
      (f( 
1), 1)
    })
    val rdd2 = rdd1.reduceByKey(_ + _)

    val rdd3 = rdd2.map(t => {
      val url = t._1
      val host = new URL(url).getHost
      (host, (url, t._2))
    })
    val ints = rdd3.map(_._1).distinct().collect()
    val hostParitioner = new HostParitioner(ints)
//    val rdd4 = rdd3.partitionBy(new HashPartitioner(ints.length)) 


    val rdd4 = rdd3.partitionBy(hostParitioner).mapPartitions(it => {
      it.toList.sortBy(_._2._2).reverse.take(2).iterator
    })
    rdd4.saveAsTextFile("c://out4")
    //println(rdd4.collect().toBuffer)
    sc.stop()
  }
}

/**
  * 決定了數據到哪個分區裏面
  * @param ins
  */
class HostParitioner(ins: Array[String]) extends Partitioner {

  val parMap = new mutable.HashMap[String, Int]()
  var count = 0
  for(i <- ins){
    parMap += (i -> count)
    count += 1
  }

  override def numPartitions: Int = ins.length

  override def getPartition(key: Any): Int = {
    parMap.getOrElse(key.toString, 0)
  }
}

　　// 與Hadoop相通，不再贅述

二、自定義排序

　　基本上就是結合之前的隱式轉換了：（這裏使用樣例類可以不用new就能得到實例，另外也可以用於模式匹配）

package cn.itcast.spark.day3

import org.apache.spark.{SparkConf, SparkContext}


object OrderContext {
  implicit val girlOrdering  = new Ordering[Girl] {
    override def compare(x: Girl, y: Girl): Int = {
      if(x.faceValue > y.faceValue) 1
      else if (x.faceValue == y.faceValue) {
        if(x.age > y.age) -1 else 1
      } else -1
    }
  }
}


/**
  * Created by root on 2016/5/18.
  */
//sort =>規則 先按faveValue，比較年齡
//name,faveValue,age


object CustomSort {

  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("CustomSort").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List(("yuihatano", 90, 28, 1), ("angelababy", 90, 27, 2),("JuJingYi", 95, 22, 3)))
    import OrderContext._
    val rdd2 = rdd1.sortBy(x => Girl(x._2, x._3), false)
    println(rdd2.collect().toBuffer)
    sc.stop()
  }

}

/**
  * 第一種方式
  * @param faceValue
  * @param age

case class Girl(val faceValue: Int, val age: Int) extends Ordered[Girl] with Serializable {
  override def compare(that: Girl): Int = {
    if(this.faceValue == that.faceValue) {
      that.age - this.age
    } else {
      this.faceValue -that.faceValue
    }
  }
}
  */

/**
  * 第二種，通過隱式轉換完成排序
  * @param faceValue
  * @param age
  */
case class Girl(faceValue: Int, age: Int) extends Serializable

大數據入門第二十二天——spark（三）自定義分區、排序與查找

get buffer arr clas ron arm scala mut all 一、自定義分區　　1.概述　　　　默認的是Hash的分區策略，這點和Hadoop是類似的，具體的分區介紹，參見：https://blog.csdn.net/high2011/arti

大數據入門第二十四天——SparkStreaming（2）與flume、kafka整合

RM ESS 依賴 mep sock flume-ng bject 整合 master 前一篇中數據源采用的是從一個socket中拿數據，有點屬於“旁門左道”，正經的是從kafka等消息隊列中拿數據！主要支持的source，由官網得知如下：

Slim 框架學習，第十二天 _Router（三）

導讀：昨天我們學習了一下路由的介面 RouterInterface，今天我們看下，路由類的實現先看下面兩段程式碼： Slim/DefaultServicesProvider.php $container['router'] = functi

大數據入門第二十天——scala入門（二）scala基礎

alt turn class 推斷 inf 循環轉換使用 mda 一、基礎語法　　1.變量類型　　　　// 上表中列出的數據類型都是對象，也就是說scala沒有java中的原生類型。在scala是可以對數字等基礎類型調用方法的。　　2.變量聲明&mdas

大數據入門第十七天——storm上遊數據源之kafka詳解（一）入門

不同這也接受 blog 存儲發送 records ant post 一、概述　　1.kafka是什麽　　　　根據標題可以有個概念：kafka是storm的上遊數據源之一，也是一對經典的組合，就像郭德綱和於謙　　　　根據官網：http://kafka.apa

Spring入門第二十二課

pri startup span val join can arrays log .org 重用切面表達式我們有的時候在切面裏面有多個函數，大部分函數的切入點都是一樣的，所以我們可以聲明切入點表達式，來重用。 package logan.study.aop.impl;

Python第二十二天 stat模塊 os.chmod方法 os.stat方法

處理意思 pytho ati lin 進程 cti 權限掩碼 lena Python第二十二天 stat模塊 os.chmod方法 os.stat方法 stat模塊描述了os.stat(filename)返回的文件屬性列表中各值的意義，根據stat模塊讀取

愛創課堂每日一題第二十二天-什麽是Etag？

前端前端學習前端入門當發送一個服務器請求時，瀏覽器首先會進行緩存過期判斷。瀏覽器根據緩存過期時間判斷緩存文件是否過期。情景一：若沒有過期，則不向服務器發送請求，直接使用緩存中的結果，此時我們在瀏覽器控制臺中可以看到 200 OK(from cache) ，此時的情況就是完全使用緩存，瀏覽器和服務器沒

大數據學習之十二——MapReduce代碼實例：關聯性操作

reducer equal 學習 obj actor 對應關系關系 exceptio ted 1.單表關聯 "單表關聯"要求從給出的數據中尋找所關心的數據，它是對原始數據所包含信息的挖掘。實例描述給出child-parent（孩子——父母）表，要求輸出grandchil

大數據入門第十五天——HBase整合：雲筆記項目

表設計 ase 設計 str HR .html blog font ont 一、功能簡述　　1.筆記本管理（增刪改）　　2.筆記管理　　3.共享筆記查詢功能　　4.回收站　　效果預覽：　　二、庫表設計　　　　1.設計理念　　　　　　　　將

學習python課程第二十二天

打印以及如何語言 eve 查找 elf 關系描述一 . 類的繼承與派生 : 　　1. 什麽是繼承: 　　　　在程序中繼承是一種新建子類的方式, 新創建的類稱之為子類,或者派生類. 　　　　被繼承的類稱之為父類, 　　　　繼承描述的是一種遺傳關系, 子類可以重

(89)Wangdao.com第二十二天_JavaScript

屬性屬性本身是一個物件（Attr 物件） Element.attributes 返回一個類似陣列的動態物件，成員是該元素標籤的所有屬性節點物件屬性的實時變化都會反映在這個節點物件上。

(89)Wangdao.com第二十二天_JavaScript DocumentFragment 節點

DocumentFragment 節點代表一個文件的片段，本身就是一個完整的 DOM 樹形結構。它沒有父節點，.parentNode 返回 null 可以插入任意數量的子節點。不屬於當前文件，操作 DocumentFragment 節點，要比直接操作 DOM 樹快得多一般用於構建一個 DOM

python 學習第二十二天（threading模組）

啟動一個執行緒 import threading import time def he(num): #定義每個執行緒要執行的函式 print("running on number:%s" %num) time.sleep(3) if __name

python 學習第二十二天（程序和執行緒）

程序程序就是一個程式在一個數據集上的一次動態執行過程。程序一般由程式、資料集、程序控制塊三部分組成。我們編寫的程式用來描述程序要完成哪些功能以及如何完成；資料集則是程式在執行過程中所需要使用的資源；程序控制塊用來記錄程序的外部特徵，描述程序的執行變化過程，系統可以利

第二十二天- 序列化 pickle json shelve

# 序列化：儲存或傳輸資料時，把物件處理成方便儲存和傳輸的資料格式，這個過程即為序列化# Python中序列化的三種方案：# 1.pickle python任意資料——》bytes寫入⽂件；寫好的bytes——》python的資料.# 2.shelve 簡單另類的⼀種序列化⽅案.

java學習之路——第二十二天

File類這個類是java用來操作檔案屬性的類，使用這個類操作檔案的屬性，但是不能操作檔案裡面的內容。這個構造的引數指向的是預設當前專案的根目錄 File f = new File(String pathName); boolean exists():判斷File指向的檔案是否存

孤荷淩寒自學python第二十二天python類的繼承

學習之路 trace pytho 類的繼承屏幕 trac 名稱一個操作孤荷淩寒自學python第二十二天python類的繼承（完整學習過程屏幕記錄視頻地址在文末，手寫筆記在文末） python中定義的類可以繼承自其它類，所謂繼承的概念，我的理解是，就是一個類

菜鳥學Python第二十二天

面向物件的三大特性之繼承什麼是繼承繼承是一種建立新類的方式,新建的類可以繼承一個或者多個父類(python支援多繼承),父類又可以稱為基類又或超類,新建的類稱為派生類或者子類. 子類會'遺傳'父類的屬性(特徵和技能),從而解決程式碼重用的問題

Qt第二十二天

續接之前百分百柱狀圖，散點圖，光滑曲線圖 void MainWindow::iniPercentBar()//初始化PercentBar { QChart *chart=ui->chartViewPercentBar->chart(); chart->

大數據入門第二十二天——spark（三）自定義分區、排序與查找

一、自定義分區

二、自定義排序

相關推薦