Spark DataSet 、DataFrame 一些使用示例

阿新 • • 發佈：2017-11-19

read ray .sql null support 就是 elf encoder 方式

以前使用過DS和DF，最近使用Spark ML跑實驗，再次用到簡單復習一下。

//案例數據
1,2,3
4,5,6
7,8,9
10,11,12
13,14,15
1,2,3
4,5,6
7,8,9
10,11,12
13,14,15
1,2,3
4,5,6
7,8,9
10,11,12
13,14,15

1：DS與DF關系？

type DataFrame = Dataset[Row]

2：加載txt數據

  val rdd = sc.textFile("data")

  val df = rdd.toDF()

這種直接生成DF，df數據結構為（查詢語句：df.select("*").show(5)）：

技術分享圖片

只有一列，屬性為value。

3： df.printSchema()

技術分享圖片

4：case class 可以直接就轉成DS

// Note: Case classes in Scala 2.10 can support only up to 22 fields. To work around this limit,
// you can use custom classes that implement the Product interface
case class Person(name: String, age: Long)

// Encoders are created for case classes 

val caseClassDS = Seq(Person("Andy", 32)).toDS()

5：直接解析主流格式文件

val path = "examples/src/main/resources/people.json"
val peopleDS = spark.read.json(path).as[Person]

6：RDD轉成DataSet兩種方法

數據格式:

xiaoming,18,iPhone
mali,22,xiaomi
jack,26,smartisan
mary,16,meizu
kali,45,huawei

（a）：使用反射推斷模式

  val persons = rdd.map {
    x  
=>
      val fs = x.split(",")
      Person(fs(0), fs(1).toInt, fs(2))
  }

  persons.toDS().show(2)
  persons.toDF("newName", "newAge", "newPhone").show(2)
  persons.toDF().show(2)

技術分享圖片

（b）：編程方式指定模式

步驟：

技術分享圖片

import org.apache.spark.sql.types._
  //1:創建RDD
  val rddString = sc.textFile("C:\\Users\\Daxin\\Documents\\GitHub\\OptimizedRF\\sql_data")
  //2：創建schema
  val schemaString = "name age phone"
  val fields = schemaString.split(" ").map {
    filedName => StructField(filedName, StringType, nullable = true)
  }
  val schema = StructType(fields)
  //3：數據轉成Row
  val rowRdd = rddString.map(_.split(",")).map(attributes => Row(attributes(0), attributes(1), attributes(2)))
  //創建DF
  val personDF = spark.createDataFrame(rowRdd, schema)
  personDF.show(5)

7：註冊視圖

  //全局表，生命周期多個session可以共享並且創建該視圖的sparksession停止該視圖也不會過期
  personDF.createGlobalTempView("GlobalTempView_Person")
  //臨時表，存在的話覆蓋。生命周期和sparksession相同
  personDF.createOrReplaceTempView("TempView_Person")
  //personDF.createTempView("TempView_Person") //如果視圖已經存在則異常

  //  Global temporary view is tied to a system preserved database `global_temp`
  //全局視圖存儲在global_temp數據庫中，如果不加數據庫前綴異常，提示找不到視圖
  spark.sql("select * from global_temp.GlobalTempView_Person").show(2)
  //臨時表不需要添加數據庫
  spark.sql("select * from TempView_Person").show(2)

技術分享圖片

8:UDF 定義：

Untyped User-Defined Aggregate Functions

package com.daxin.sq.df

import org.apache.spark.sql.expressions.MutableAggregationBuffer
import org.apache.spark.sql.expressions.UserDefinedAggregateFunction
import org.apache.spark.sql.types._
import org.apache.spark.sql.Row

/**
  * Created by Daxin on 2017/11/18.
  * url：http://spark.apache.org/docs/latest/sql-programming-guide.html#untyped-user-defined-aggregate-functions
  */

//Untyped User-Defined Aggregate Functions
object MyAverage extends UserDefinedAggregateFunction {

  // Data types of input arguments of this aggregate function
  override def inputSchema: StructType = StructType(StructField("inputColumn", IntegerType) :: Nil) //2


  // Updates the given aggregation buffer `buffer` with new input data from `input`
  //TODO  第一個緩沖區是sum，第二個緩沖區是元素個數
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    if (!input.isNullAt(0)) {
      buffer(0) = buffer.getInt(0) + input.getInt(0) // input.getInt(0)是中inputSchema定義的第0個元素
      buffer(1) = buffer.getInt(1) + 1
      println()
    }
  }


  // Data types of values in the aggregation buffer
  //TODO  定義緩沖區的模型（也就是數據結構）
  override def bufferSchema: StructType = StructType(StructField("sum", IntegerType) :: StructField("count", IntegerType) :: Nil)


  // Merges two aggregation buffers and stores the updated buffer values back to `buffer1`
  //TODO MutableAggregationBuffer 是Row子類
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    //TODO 合並分區，將結果更新到buffer1
    buffer1(0) = buffer1.getInt(0) + buffer2.getInt(0)
    buffer1(1) = buffer1.getInt(1) + buffer2.getInt(1)

    println()
  }


  // Initializes the given aggregation buffer. The buffer itself is a `Row` that in addition to
  // standard methods like retrieving a value at an index (e.g., get(), getBoolean()), provides
  // the opportunity to update its values. Note that arrays and maps inside the buffer are still
  // immutable.
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0) = 0
    buffer(1) = 0
  }

  // Whether this function always returns the same output on the identical input
  override def deterministic: Boolean = true

  // Calculates the final result
  override def evaluate(buffer: Row): Int = buffer.getInt(0) / buffer.getInt(1)

  // The data type of the returned value,返回值類型
  override def dataType: DataType = IntegerType // 1
}

測試代碼：

  spark.udf.register("myAverage", MyAverage)
  val result = spark.sql("SELECT myAverage(age)  FROM TempView_Person")
  result.show()

8：關於機器學習中的DataFrame的schema定：

一列名字為 label，另一列名字為 features。一般可以使用case class完成轉換

case class UDLabelpOint(label: Double, features: org.apache.spark.ml.linalg.Vector)

Spark DataSet 、DataFrame 一些使用示例

read ray .sql null support 就是 elf encoder 方式以前使用過DS和DF，最近使用Spark ML跑實驗，再次用到簡單復習一下。 //案例數據 1,2,3 4,5,6 7,8,9 10,11,12 13,14,15 1,2,3

Spark RDD、DataFrame和DataSet的區別

RDD 優點: 編譯時型別安全編譯時就能檢查出型別錯誤面向物件的程式設計風格直接通過類名點的方式來操作資料缺點: 序列化和反序列化的效能開銷無論是叢集間的通訊, 還是IO操作都需要對物件的結構和資料進行序列化和反序列化. G

Spark RDD、DataFrame、DataSet區別和聯絡

左側的RDD[Person]雖然以Person為型別引數，但Spark框架本身不瞭解Person類的內部結構。而右側的DataFrame卻提供了詳細的結構資訊，使得Spark SQL可以清楚地知道該資料集中包含哪些列，每列的名稱和型別各是什麼。DataFrame多了資料的結構資訊，即schema。RDD是分散

Spark RDD、DataSet、DataFrame--區別（個人理解）

描述：實驗將系統資料分別轉換成RDD，DataSet、DataFrame，然後進行比較，資料有四列，分別起名為a、b、c、d。class People(a:String, b:String, c:String, d:String)RDD：轉換成RDD[People]後，發現每

一篇文章搞懂DataSet、DataFrame、RDD-《每日五分鐘搞定大數據》

implicit 操作數 frame 大數據函數 for 臨時變量 ade 1. 三者共性： 1、RDD、DataFrame、Dataset全都是spark平臺下的分布式彈性數據集，為處理超大型數據提供便利 2、三者都有惰性機制，執行trainform操作時不會立即執

一篇文章搞懂DataSet、DataFrame、RDD

1. 三者共性： 1、RDD、DataFrame、Dataset全都是spark平臺下的分散式彈性資料集，為處理超大型資料提供便利 2、三者都有惰性機制，執行trainform操作時不會立即執行，遇到Action才會執行 3、三者都會根據spark的記憶體情況自動快取運算，這樣即使資

一篇文章搞懂DataSet、DataFrame、RDD-《每日五分鐘搞定大資料》

1. 三者共性： 1、RDD、DataFrame、Dataset全都是spark平臺下的分散式彈性資料集，為處理超大型資料提供便利 2、三者都有惰性機制，執行trainform操作時不會立即執行，遇到Action才會執行 3、三者都會根據spark的記憶體情況自動快取運算，這樣即使資料量很大，也不用擔心會

Spark修煉之道（進階篇）——Spark入門到精通：第十三節 Spark Streaming—— Spark SQL、DataFrame與Spark Streaming

主要內容 Spark SQL、DataFrame與Spark Streaming 1. Spark SQL、DataFrame與Spark Streaming import org.apache.spark.SparkConf import org

Apache Spark 2.0三種API的傳說：RDD、DataFrame和Dataset

sensor json數據 query 答案內存 table 引擎 library spark Apache Spark吸引廣大社區開發者的一個重要原因是：Apache Spark提供極其簡單、易用的APIs，支持跨多種語言(比如：Scala、Java、Python和R

spark之DataFrame、DataSet、RDD的區別

RDD(彈性分散式資料集) RDD是Spark中最基本的資料抽象，它代表一個不可變、可分割槽、裡面的元素可平行計算的集合，RDD是Spark Core的底層核心，Spark則是這個抽象方法的實現 DataFrame 上圖直觀地體現了DataFrame和

Spark中的RDD、DataFrame、Dataset對比

1 RDD RDD是Spark提供的最重要的抽象的概念，彈性的分散式資料集，它是一種有容錯機制的特殊集合，可以分佈在叢集的節點上，以函式式編操作集合的方式，進行各種並行操作。Spark的RDD內建了各種函式操作，舉個例子，我們編寫wordcount案例，如果使

spark RDD，DataFrame,DataSet 介紹

列式存儲 ren gre rds 包含執行這一 ces 中一彈性分布式數據集（Resilient Distributed Dataset，RDD） RDD是Spark一開始就提供的主要API，從根本上來說，一個RDD就是你的數據的一個不可變的分布式元素集

二、spark SQL互動scala操作示例

一、安裝spark spark SQL是spark的一個功能模組，所以我們事先要安裝配置spark，參考： https://www.cnblogs.com/lay2017/p/10006935.html 二、資料準備演示操作將從一個類似json檔案裡面讀取資料作為資料來源，並初始化為dat

spark中RDD，DataSet，DataFrame的區別

接觸到spark不可避免的會接觸spark的Api； rdd,DataFrame,DataSet，接下來就大致說一下他們的有點以及各自的區別；首先DataFrame，Data

再談RDD、DataFrame、DataSet關係以及相互轉換（JAVA API）

Spark提供了三種主要的與資料相關的API： RDD DataFrame DataSet 三者圖示下面詳細介紹下各自的特點： RDD 主要描述：RDD是Spark提供的最主要的一個抽象概念（Resilient Distributed Dataset）

Spark 2.0 DataFrame map操作中Unable to find encoder for type stored in a Dataset.問題的分析與解決

隨著新版本的spark已經逐漸穩定，最近擬將原有框架升級到spark 2.0。還是比較興奮的，特別是SQL的速度真的快了許多。。然而，在其中一個操作時卻卡住了。主要是dataframe.map操作，這個之前在spark 1.X是可以執行的，然而在spark 2.0上卻無

spark rdd轉dataframe 寫入mysql的示例

　　　dataframe是在spark1.3.0中推出的新的api，這讓spark具備了處理大規模結構化資料的能力，在比原有的RDD轉化方式易用的前提下，據說計算效能更還快了兩倍。spark在離線批處理或者實時計算中都可以將rdd轉成dataframe進而通過簡

spark-SQL的DataFrame和DataSet

方法一： sqlContext.read() 返回DataFrameReader物件 sqlContext.read().json("student.json")讀取一個json檔案（這個json檔案中的內容不能是巢狀的）讀進來變成DataFrame,

RDD、DataFrame、DataSet互轉

如果需要RDD與DS或者DF之間操作，那麼都需要引入 import spark.implicits._ 【spark不是包名，而是sparkSession物件的名稱】1、RDD 《-》 DataFrame 1、RDD -》 DataFrame （確定Schema）

談談RDD、DataFrame、Dataset的區別和各自的優勢

在spark中，RDD、DataFrame、Dataset是最常用的資料型別，本博文給出筆者在使用的過程中體會到的區別和各自的優勢共性：1、RDD、DataFrame、Dataset全都是spark平臺下的分散式彈性資料集，為處理超大型資料提供便利2、三者都有惰性機制，在進行

Spark DataSet 、DataFrame 一些使用示例

Untyped User-Defined Aggregate Functions

相關推薦