使用scala編寫一個簡單例項到spark叢集執行

阿新 • • 發佈：2018-12-25

實際工作上很少在虛擬機器上直接使用spark-shell去編寫程式，更多的是在IDEA等編輯器上將寫好的程式打包，使用spark-submit提交到叢集上去執行。

我們使用scala去編寫程式，不會的自己百度學下，不解釋。

1，安裝jdk

因為scala也是執行在jvm上的，所以需要安裝jdk。（jdk安裝方法不解釋，自己百度,建議安裝1.7以上版本）

2，安裝scala

筆者安裝的是scala 2.10.6版本，需要jdk1.7及以上版本支援。

設定系統變數，新增一個SCALA_HOME,設定值為SCALA指定的安裝目錄，

在Path路徑的末尾加

 ;%SCALA_HOME%\bin;%SCALA_HOME%\jre\bin;

在CLASSPATH路徑末尾新增

;%SCALA_HOME%\bin;%SCALA_HOME%\lib\dt.jar;%SCALA_HOME%\lib\tools.jar.;

配置後按 win + R 輸入cmd 召喚視窗輸入 scala -version ，檢視是否配置安裝成功。

3，在IDEA上使用編寫程式

建立一個maven專案，建立過程不解釋，提供一個我的 pom.xml檔案

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>cn.itcast.spark</groupId>
    <artifactId>hello-spark</artifactId>
    <version>1.0</version>

    <properties>
        <maven.compiler.source>1.7</maven.compiler.source>
        <maven.compiler.target>1.7</maven.compiler.target>
        <encoding>UTF-8</encoding>
        <scala.version>2.10.6</scala.version>
        <spark.version>1.6.1</spark.version>
        <hadoop.version>2.6.4</hadoop.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
    </dependencies>

    <build>
        <sourceDirectory>src/main/scala</sourceDirectory>
        <testSourceDirectory>src/test/scala</testSourceDirectory>
        <plugins>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                        <configuration>
                            <args>
                                <arg>-make:transitive</arg>
                                <arg>-dependencyfile</arg>
                                <arg>${project.build.directory}/.scala_dependencies</arg>
                            </args>
                        </configuration>
                    </execution>
                </executions>
            </plugin>

            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.4.3</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

</project>

編寫一個wordCount小程式，程式碼如下：

package cn.itcast.spark
import org.apache.spark. {SparkConf, SparkContext}
/**
  * Created by mrwanghc on 2018/7/17.
  */
object WordCount {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("WC")
    val sc = new SparkContext(conf)
    sc.textFile(args(0)).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile(args(1))
    sc.stop()
  }
}

寫完後將專案打包：

這裡會生成兩個包，一個是隻包含程式碼的簡潔包，另一個是包含jar包依賴的大包，保險起見我們使用打包即可。

將包上傳到spark叢集上, spark叢集的搭建啟動這裡不解釋，之前文章有詳解，請自行檢視。

在spark目錄下輸入命令

bin/spark-submit --master spark://weekend02:7077 --class cn.itcast.spark.WordCount --executor-memory 512m --total-executor-cores 2 /home/bigdata/hello-spark-1.0.jar hdfs://weekend02:9000/wc hdfs://weekend02:9000/out2

--master 指定叢集master

--class 指定類所在地址

--executor-memory 512m 指定每個work執行記憶體為512m

--total-executor-cores 2 指定總共提供2個核處理給所有work

/home/bigdata/hello-spark-1.0.jar 提供上傳的jar包所在目錄

hdfs://weekend02:9000/wc 提供所需分析的檔案所在hdfs中的目錄

hdfs://weekend02:9000/out2 提供處理完後的檔案要放到hdfs中某目錄

輸入完這條命令回車執行，若不報錯，則完活！

使用scala編寫一個簡單例項到spark叢集執行

實際工作上很少在虛擬機器上直接使用spark-shell去編寫程式，更多的是在IDEA等編輯器上將寫好的程式打包，使用spark-submit提交到叢集上去執行。我們使用scala去編寫程式，不會的自己百度學下，不解釋。 1，安裝jdk 因為scala也是執行在

（三）通過執行緒編寫一個簡單的併發伺服器

概述之前在上一節通過使用fork來實現了一個併發程式，它很經典但是效率不高主要是太消耗資源因為fork一個程序的開銷很大，假如100客戶端連線就需要100個程序，這樣不是不可以只是這種方式不太高階，下面我們通過使用執行緒來實現併發，因為產生一個執行緒的開銷要小的多，當然對於大規模併發的場景使用執行緒也不是最

pythonocc入門指導：2.PyCharm連線pythonOCC開發環境，並執行一個簡單例項

已經更新的入門指導 PythonOCC入門指導：1.建立pythonocc虛擬環境 PythonOCC入門指導：2.執行一個簡單例項 PythonOCC入門指導：3.建立屬於自己的主介面及對話方塊及安裝qtdesigner pythonocc基礎使用：1.讀入iges，step，stl檔

IDEAJ中Scala打包提交Spark叢集執行

最簡單一個demo //讀取hdfs，然後寫入hdfs package com.spark.FirstApp import org.apache.spark.SparkContext import org.apache.spark.SparkConf ob

網路程式設計與多執行緒的應用--基於socket udp編寫一個簡單聊天程式

void CChatDlg::OnBnClickedButtonSend() {// TODO: Add your control notification handler code here//獲取對方IPCIPAddressCtrl* pIPAddress = ((CIPAddressCtrl*)GetD

【原】shell編寫一個簡單的jmeter自動化壓測腳本

image tac vbo 用戶數 osx dot png das uvc 在公司做壓力測試也挺長時間了，每次測試前環境數據準備都需要話費較長時間，所以一直在考慮能不能將整個過程實現自動化進行，於是就抽空寫了一個自動化腳本，當然這個腳本目前功能十分簡陋，代碼也不完善，很有很

Golang中使用heap編寫一個簡單高效的定時器模塊

true pop 邏輯 .com light 初始化 callback before cell 定時器模塊在服務端開發中非常重要，一個高性能的定時器模塊能夠大幅度提升引擎的運行效率。使用Golang和heap實現一個通用的定時器模塊，代碼來自：https://github.

手把手教你編寫一個簡單的PHP模塊形態的後門

cpp rest xtu job ring 事先們的 original call 看到Freebuf 小編發表的用這個隱藏於PHP模塊中的rootkit，就能持久接管服務器文章，很感興趣，苦無作者沒留下PoC，自己研究一番，有了此文 0×00. 引言 PHP是一個非常流行

如何用Java編寫一個簡單的服務器和客戶機

exce 解決對賬 location exceptio acc 明顯隊列客戶今天我要向大家介紹的是自己編寫的一個比較簡單的服務器和客戶機程序，註意一下哦，比較簡單。好了，閑話休提，砸門直入主題。小編先從客戶機和服務器的模型開始講解。

編寫一個簡單的TCP服務端和客戶端

不同的大連終端服務器端 com 讀寫所有字數資料下面的實驗環境是linux系統。效果如下： 1.啟動服務端程序，監聽在6666端口上 2.啟動客戶端，與服務端建立TCP連接 3.建立完TCP連接，在客戶端上向服務端發送消息 4.斷開

編寫一個簡單的單元測試用例

ide bsp span log 加減乘除 self teardown __main__ str 開發一個簡單的計算器，用於計算兩個數的加減乘除，示例： 1 class Calculator(): 2 ‘‘‘實現簡單的加減乘除‘‘‘ 3 def _

使用js編寫一個簡單的運動框架

parse 獲取當前值進一步 filter 獲取 win logs alt htm 下班後，，沒事搗鼓搗鼓個人的小愛好。首先，說明我的這個運動框架(css所有屬性)也是常見的框架一種，健壯性並不是太好，對於新手學習倒是挺好，，若是大神，老司機請拐彎。

編寫一個簡單登錄驗證需要記錄日誌，Servlet中的Cookie

cookie java servlet j2ee javaweb 登錄驗證並記錄日誌之前介紹了如何使用Server、mysql、tomcat等知識點編寫了一個簡單的登錄驗證。但是現在有了一個新的需求，我想要在登錄成功的時候往數據庫記錄一條日誌，登錄失敗的時候也要記錄一下。這個日誌要記錄用戶

如何用VBS編寫一個簡單的惡搞腳本

程序一個復制文件夾組合不支持文字 sendkeys 選項 windows系統的電腦，首先右擊桌面，選擇新建-文本文檔，在桌面上新建一個文本文檔；隨後打開計算機或者是我的電腦，點擊其中的組織（xp系統多為工具），選擇下面的文件夾和搜索

編寫一個簡單的Web應用

AC info 覆蓋圖片 ram cnblogs 類目基於 div 上一篇我們搭建了一個簡單的Web應用：http://www.cnblogs.com/lay2017/p/8468515.html 本文將基於上一篇搭建的應用，編寫一些內容編寫Servlet類編寫J

用 Go 編寫一個簡單的 WebSocket 推送服務

年輕 sync 狀態升級 ati .com 客戶端我們 png 用 Go 編寫一個簡單的 WebSocket 推送服務本文中代碼可以在 github.com/alfred-zhong/wserver 獲取。背景最近拿到需求要在網頁上展示報警信息。以往報警信息都

練習題,使用多線程編寫一個簡單的文本處理工具

tar 處理工具 utf txt nco opened odin 文本處理工具 while 一. 練習題要求:　　編寫一個簡單的文本處理工具，具備三個任務，一個接收用戶輸入，一個將用戶輸入的內容格式化成大寫，一個將格式化後的結果存入文件二. 分析:　　三個任務,那就是三個線

關於Java中timer的一個簡單例項應用

效果展示核心程式碼： Timer timer = new Timer();//新增定時器 timer.schedule( new TimerTask(){//重寫定時任務 public void run(){ button2.setText("取消"+S

編寫一個簡單的C++程式

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

用編寫一個簡單的記事本（C#實現）

using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using Syste

使用scala編寫一個簡單例項到spark叢集執行

相關推薦