[spark程序]統計人口平均年齡（本地文件）（詳細過程）

阿新 • • 發佈：2018-07-22

pro simple res 本地文件 object c package library 退回 port

一、題目描述

（1）編寫Spark應用程序，該程序可以在本地文件系統中生成一個數據文件peopleage.txt，數據文件包含若幹行（比如1000行，或者100萬行等等）記錄，每行記錄只包含兩列數據，第1列是序號，第2列是年齡。效果如下：

（2）編寫Spark應用程序，對本地文件系統中的數據文件peopleage.txt的數據進行處理，計算出所有人口的平均年齡。

二、實現

1、生成數據文件peopleage.txt

1）創建程序的目錄結構

創建一個存放代碼的目錄，進入目錄下創建一個目錄用來保存該題目所有文件（/swy/resource/spark/peopleage）

在peopleage目錄下建立src/main/scala代碼目錄，專門用來保存scala代碼文件，命令如下：

技術分享圖片

2）生成數據文件peopleage.txt的代碼

創建一個代碼文件GeneratePeopleAge.scala，用來生成數據文件peopleage.txt，命令如下：

技術分享圖片

代碼如下：

import java.io.FileWriter
import java.io.File
import scala.util.Random

object GeneratePeopleAge{

    def main(args:Array[String]){
            val fileWriter = new FileWriter(new File("/swy/resource/spark/peopleage/peopleage.txt"),false)
            val rand = new Random()
            for (i <- 1 to 1000){
                fileWriter.write(i+" "+rand.nextInt(100))
                fileWriter.write(System.getProperty("line.separator"))
        }
            fileWriter.flush()
            fileWriter.close()
    }
}

3）sbt打包

退回到people目錄下：

技術分享圖片

輸入如下：

name := "Simple Project"
version := "1.0"
scalaVersion := "2.11.12"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"

輸入命令打包：

sbt package

打包成功：

技術分享圖片

4）運行文件，生成peopleage.txt

技術分享圖片

可以看到目錄下已經生成peopleage.txt，查看文件：

技術分享圖片

2、計算所有人口的平均年齡

1）創建CountAvgage.scala

技術分享圖片

2）代碼

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object CountAvgAge {
    def main(args:Array[String]) {
        if (args.length < 1) {
            println("Usage: CountAvgAge inputdatafile")
            System.exit(1)
        }
        val conf = new SparkConf().setAppName("Count average age")
        val sc = new SparkContext(conf)
        val lines = sc.textFile(args(0),3)
        val peopleNum =lines.count()
                val totalAge = lines.map(line => line.split(" ")(1)).map(t => t.trim.toInt).collect().reduce((a,b) => a+b)
        println("Total Age is: " +totalAge+ "; Number of People is: " +peopleNum)
        val avgAge : Double = totalAge.toDouble / peopleNum.toDouble
        println("Average Age is: " +avgAge)
    }
}

3）打包

退回people文件夾，輸入命令打包：

技術分享圖片

4）運行程序

輸入如下命令：

技術分享圖片

結果：

技術分享圖片

參考：http://dblab.xmu.edu.cn/blog/1756-2/

[spark程序]統計人口平均年齡（本地文件）（詳細過程）

pro simple res 本地文件 object c package library 退回 port 一、題目描述（1）編寫Spark應用程序，該程序可以在本地文件系統中生成一個數據文件peopleage.txt，數據文件包含若幹行（比如1000行，或者100萬行等等

[spark程序]統計人口平均年齡（本地文件）（詳細過程）

[spark程序]統計人口平均年齡（本地文件）（詳細過程）

爬蟲任務二：爬取(用到htmlunit和jsoup)通過百度搜索引擎關鍵字搜取到的新聞標題和url，並保存在本地文件中（主體借鑒了網上的資料）

JMeter接口測試——參數化（從文件中讀取參數）

HTTP使用 multipart/form-data 上傳多個字段（包括文件字節流 octet-stream）

Android逆向-Android逆向基礎10（so文件分析大合集）

windows服務器設置文件屬性設置去掉隱藏已知文件類型的擴展名（即文件後綴名可見）

eclipse projectExplorer視圖（以包的方式顯示）與navigator視圖切換（以文件夾的方式顯示）及樹狀視圖與平面視圖的切換

微信小程式（看文件寫例項十一）微信小程式課堂寶APP完結總結及github地址

軟體工程之文件篇（各文件的巨集觀把控）

Word文件去除煩人的防複製巨集保防功能（word文件巨集保護破解技巧）

JAVA核心技術I---JAVA基礎知識（Jar文件導入導出）

pycuda的安裝和錯誤解決（含boost安裝編譯的詳細過程）

mybatis-Plus3.0 整合spring，配置分頁和多個dao的掃描（官方文件未說明的事項）

ofd電子文件內容分析工具（分析文件、簽章和證書）

'mingw32-make' 不是內部或外部命令，也不是可運行的程序或批處理文件。（的解決方案）

Git與GitHub（利用git上傳本地文件到GitHub上面）

統計指定文件個數（遞歸的使用）

Java小遊戲DanceWithStars（二）：修改本地文件中的圖片（圖片寬高和圖片型別）以及將圖片設定為JButton的影象

spark 調優（官方文件）

spark編譯（官方文件翻譯版）

[spark程序]統計人口平均年齡（本地文件）（詳細過程）

相關推薦