使用Scala 讀寫MySQL 資料給Spark任務執行

阿新 • • 發佈：2019-01-08

初學Spark，需要從資料庫讀取資料給Spark執行，然後將執行結果返回給資料庫。

由於Spark是基於 Scala 開發的，剛開始完全摸不到頭腦，本來是用java將資料庫資料寫到一個檔案，然後spark去讀這個檔案然後執行，又突然想到，既然scala寫的spark程式，何不用scala來直接讀取資料庫給spark任務執行，然後返回給資料庫就行了啊，還繞那麼多彎幹嘛。。

雖然不會寫Scala，但是會寫 Java啊，於是照葫蘆畫瓢，連線JDBC，將資料存到集合然後計算即可。

開始用的List，但是Scala的List型別是不可變的，immutable，
A class for immutable linked lists representing ordered collections of elements of type.

於是看看有沒有可變集合，找到一個scala.collection.mutable.ArrayBuffer，可用。

package wordcount

import org.apache.spark.{SparkConf, SparkContext}
import java.sql.{Connection, DriverManager, ResultSet};
import scala.collection.mutable.ArrayBuffer

/**
  * Created by kay on 2017/12/13.
  */
object WordCountLocal {

  // Change to Your Database Config 

  val conn_str = "jdbc:mysql://localhost:3306/mydb?user=root&password=root";

  def main(args: Array[String]): Unit = {

    // Load the driver
    classOf[com.mysql.jdbc.Driver]

    // Setup the connection
    val conn = DriverManager.getConnection(conn_str)

    val arrayBuffer = ArrayBuffer[String]()

    try 
 {
      // Configure to be Read Only
      val statement = conn.createStatement(ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY)

      // Execute Query
      val rs = statement.executeQuery("SELECT name FROM table1")

      // Iterate Over ResultSet
      while (rs.next) {
        arrayBuffer+=rs.getString("name")
      }
    }
    finally {
      conn.close
    }

    execute(arrayBuffer)

  }

  def execute(arrayBuffer:ArrayBuffer[String]): Unit ={
    // Load the driver
    classOf[com.mysql.jdbc.Driver]

    val conf = new SparkConf().setAppName("testWord").setMaster("local[4]")

    val sc = new SparkContext(conf)

    val stringRDD=sc.parallelize(arrayBuffer)

    val conn1 = DriverManager.getConnection(conn_str)

    try {
      for ((key,count) <- stringRDD.map((_, 1)).reduceByKey(_ + _).collect()) {
        val prep = conn1.prepareStatement("INSERT INTO result (word, count) VALUES (?, ?) ")
        prep.setString(1, key)
        prep.setInt(2, count)
        prep.executeUpdate
      }
    }finally {
      conn1.close()
    }

  }

}

使用Scala 讀寫MySQL 資料給Spark任務執行

使用Scala 讀寫MySQL 資料給Spark任務執行

python讀寫mysql資料

Python讀或寫MySQL資料

大資料-05-Spark之讀寫HBase資料

Spark中讀寫mysql資料庫

Spark讀寫Hbase資料

R語言使用RMySQL連接及讀寫Mysql數據庫

雙執行緒讀寫佇列資料

python讀寫mysql

matlab 檔案讀寫、資料讀取

GIS | 利用GDAL庫讀寫影像資料

python - 讀寫excel資料

【GDAL學習】用OGR讀寫向量資料

C語言二進位制方式讀寫檔案資料

[C#原始碼]網路資料流讀寫封裝類，支援多執行緒下同時讀和寫，自動資源管理，字串分隔符\r\n

教程：使用Data Lake Analytics讀/寫MongoDB資料

C/C++快速讀寫磁碟資料的方法-塊讀取/非同步/優化分析演算法/記憶體檔案對映的原理和使用

【Unity3D】讀寫 CSV 資料表

【Unity3D外掛】在Unity中讀寫檔案資料：LitJSON快速教程

SparkSeesion讀寫mysql

使用Scala 讀寫MySQL 資料給Spark任務執行

相關推薦