1. 程式人生 > >使用IDEA進行Spark開發(二)-第一個scala程式

使用IDEA進行Spark開發(二)-第一個scala程式

上面一篇文章博主已經給大家演示好了如何去配置一個本機的scala開發環境,現在我們就一起去寫我們的第一個spark開發的scala程式吧!

  1. 開啟IDEA,選擇建立一個新的工程檔案。
    這裡寫圖片描述
  2. 點選scala,建立一個scala工程
    這裡寫圖片描述
  3. 輸入我們程式名稱——word_count,我們要寫一個詞頻統計程式。
    JDK選擇1.7
    scala選擇我們下載安裝好的scala環境目錄,這裡是2.10.5
    點選完成,即可進入程式介面
    這裡寫圖片描述
  4. 匯入scala與spark配置
    這裡寫圖片描述
    新建兩個包,main與count
    便於整理自己的程式碼結構
  5. 匯入scala包與spark包
    右鍵進入Module setting介面或直接按快捷鍵F4
    進入librarys
    這裡寫圖片描述

    點選JAVA,然後找到spark路徑spark-1.5.1-bin-hadoop2.6\lib\spark-assembly-1.5.1-hadoop2.6.0.jar
    匯入jar包。
    然後進入global library
    點選scala,匯入scala 2.10.5.
    這裡寫圖片描述
  6. 新建scala檔案,編寫scala程式
    這裡寫圖片描述
  7. 編寫詞頻統計程式
    程式如下:
package com.exercise

import org.apache.spark.{SparkContext, SparkConf}

/**
 1. Created by flet on 2016/7/7.
 */
object WordCount
{
def main(args : Array[String]) = { val conf = new SparkConf().setAppName("WordCount") val sc = new SparkContext(conf) val input = args(0) val texts = sc.textFile(input).map(line => line.split(" ")) .flatMap(words => words.map(word => (word.replaceAll("[^A-Za-z]", ""
), 1))) val counts = texts.reduceByKey(_ + _) counts.collect.foreach{ case (word, num) => println(word + " " + num.toString) } } }

8.執行scala程式
指定檔案路徑
點選右上角,設定路徑
這裡寫圖片描述
按上面的加號,新增application
填寫如下
這裡寫圖片描述
9.檢視結果
點選執行wordcount
等待一會就會看到控制檯輸出一些流資訊與結果。
如下圖:
這裡寫圖片描述

到這裡,我們的第一個spark開發的scala程式就結束了,我們成功的統計了一篇文章的詞頻,並且輸出在控制檯裡。
大家有沒有感覺到大資料的神奇之處呢?
如果大家有什麼問題可以和博主討論,其實博主也是剛剛接觸這一方面。

文章的最好放一張原始資料的圖片。
這裡寫圖片描述