一個Spark maven專案打包並使用spark-submit執行

阿新 • • 發佈：2019-01-08

專案目錄名 countjpgs
pom.xml檔案（位於專案目錄下）
countjpgs => src => main => scala => stubs => CountJPGs.scala
weblogs檔案存放在HDFS的/loudacre目錄下，是一個包含各種請求的web日誌檔案。

pom.xml檔案內容：

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.cloudera.training.dev1</groupId>
  <artifactId>countjpgs</artifactId>
  <version>1.0</version>
  <packaging>jar</packaging>
  <name>"Count JPGs"</name>
  
  <properties>
    <spark-assembly>/usr/lib/spark/lib/spark-assembly.jar</spark-assembly>
    <hadoop-mapreduce-client-common>/usr/lib/hadoop/client/hadoop-mapreduce-client-common.jar</hadoop-mapreduce-client-common>
    <hadoop-mapreduce-client-core>/usr/lib/hadoop/client/hadoop-mapreduce-client-core.jar</hadoop-mapreduce-client-core>
    <hadoop-common>/usr/lib/hadoop/client/hadoop-common.jar</hadoop-common>
    <avro>/usr/lib/hadoop/client/avro.jar</avro>
    <commons-lang>/usr/lib/hadoop/client/commons-lang.jar</commons-lang>
    <guava>/usr/lib/hadoop/client/guava.jar</guava>
    <slf4j-api>/usr/lib/hadoop/client/slf4j-api.jar</slf4j-api>
    <slf4j-log4j12>/usr/lib/hadoop/client/slf4j-log4j12.jar</slf4j-log4j12>
    <hadoop-common>/usr/lib/hadoop/client/hadoop-common.jar</hadoop-common>
    <hadoop-annotations>/usr/lib/hadoop/client/hadoop-annotations.jar</hadoop-annotations>
  </properties>
  
  <repositories>
    <repository>
      <id>apache-repo</id>
      <name>Apache Repository</name>
      <url>https://repository.apache.org/content/repositories/releases</url>
      <releases>
        <enabled>true</enabled>
      </releases>
      <snapshots>
        <enabled>false</enabled>
      </snapshots>
    </repository>
   <repository>
     <id>cloudera-repo-releases</id>
     <url>https://repository.cloudera.com/artifactory/repo/</url>
   </repository> 
  </repositories>

  <build>
    <plugins>
      <plugin>
        <groupId>org.scala-tools</groupId>
        <artifactId>maven-scala-plugin</artifactId>
	    <version>2.15.2</version>
        <executions>
          <execution>
            <goals>
              <goal>compile</goal>
            </goals>
          </execution>
        </executions>
      </plugin>
      <plugin>
        <artifactId>maven-compiler-plugin</artifactId>
	    <version>2.5.1</version>
        <configuration>
          <source>1.7</source>
          <target>1.7</target>
        </configuration>
      </plugin>
    </plugins>  
  </build>

  <dependencies>
    <dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-library</artifactId>
      <version>2.10.5</version>
      <scope>system</scope>
      <systemPath>${spark-assembly}</systemPath>
    </dependency>
    <dependency>
       <groupId>org.apache.spark</groupId>
       <artifactId>spark-core_2.10</artifactId>
       <version>local</version>
       <scope>system</scope>
       <systemPath>${spark-assembly}</systemPath>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>local</version>
        <scope>system</scope>
        <systemPath>${hadoop-common}</systemPath>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-common</artifactId>
        <version>local</version>
        <scope>system</scope>
        <systemPath>${hadoop-mapreduce-client-common}</systemPath>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-annotations</artifactId>
        <version>local</version>
        <scope>system</scope>
        <systemPath>${hadoop-annotations}</systemPath>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>avro</artifactId>
        <version>local</version>
        <scope>system</scope>
        <systemPath>${avro}</systemPath>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>slf4j-log4j12</artifactId>
        <version>local</version>
        <scope>system</scope>
        <systemPath>${slf4j-log4j12}</systemPath>
    </dependency>

  </dependencies>
</project>

CountJPGs.scala檔案內容：

package stubs

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

object CountJPGs {
   def main(args: Array[String]) {
     if (args.length < 1) {
       System.err.println("Usage: CountJPGs <file>")
       System.exit(1)
     }
	//val sc = new SparkContext("hdfs","weblogs")
	val sc = new SparkContext()
	//val filepath = "/loudace/weblogs/*66"
	val logfile = args(0)
	val weblogs = sc.textFile(logfile)
	val weblogsJpg = weblogs.filter(_.contains(".jpg"))
	var weblogsJpgCount = weblogsJpg.count()
	println("JPG Count : "+weblogsJpgCount)
	sc.stop
     //TODO: complete exercise
     println("stub is not implemented")
     System.exit(1)

   }
 }

進入到專案根目錄countjpg資料夾下：

$ cd 專案存放路徑/countjpgs

打包程式：

$ mvn package

打包成功後，jar包會生成在target資料夾下，名稱和專案名類似：

還是進入到專案根目錄countjpg資料夾下：

$ cd 專案存放路徑/countjpgs

使用spark-submit命令執行程式：

$ spark-submit --class stubs.CountJPGs target/countjpgs-1.0.jar /loudacre/weblogs/*

輸出效果：

補充：提交到YARN叢集上面執行的命令：

$ spark-submit --class stubs.CountJPGs --master yarn-client --name 'Count JPGs' target/countjpgs-1.0.jar /loudacre/weblogs/*

另外可以在專案根目錄建立一個配置檔案，以便在使用spark-submit命令時呼叫：

$ vim myspark.conf

此檔案內容：

spark.app.name My Spark App
spark.master yarn-client
spark.executor.memory 400M

啟動命令：

$ spark-submit --properties-file myspark.conf --class stubs.CountJPGs target/loudacre/weblogs/*

然後就可以在YARN視覺化頁面看到相關的配置。

一個Spark maven專案打包並使用spark-submit執行

專案目錄名 countjpgs pom.xml檔案（位於專案目錄下） countjpgs => src => main => scala => stubs => CountJPGs.scala weblogs檔案存放在HDFS的/louda

idea將maven專案打包成war包並部署

1.將web專案通過maven打包成war包(pom檔案中的打包方式為war) 2.將war包複製到tomcat的webapps目錄下 3.修改server.xml，在Host配置段中新增如下內容 <Host name="localhost" appBase="webapps

Docker Maven外掛（對專案進行打包並使用docker執行產生映象）

1. 使用dokerfile 進行構建建立dockerfile2. maven 外掛12345678910111213141516<plugin><groupId>com.spotify</groupId><artifactI

Maven專案打包出錯DependencyResolutionException 解決辦法

[ERROR] Failed to execute goal on project ems-manager-mapper: Could not resolve dependencies for project com.ems.sunko:ems-manager-mapper:jar:0.0.

maven專案打包釋出時跳過測試

1、在執行run as時候加上引數： clean install compile -Dmaven.test.skip=true 2、在pom檔案中新增如下： [html] view plain copy <code class="language-html">

Spring Boot maven專案打包

一、maven構建Spring Boot專案 1、專案路徑 2、專案說明 1）此專案是多模組spring boot專案 2）專案模組分層如下：模型層：model 持久層：persistence 表示層：web 3、打包命令【開啟命令列視窗】 1）cd 專案目錄 cd /Users

使用命令將專案打包並使用WinSCP將包部署到伺服器

首先我們要將專案打成jar,開啟專案下一級目錄，在路徑上輸入cmd然後回車然後執行命令：mvn clean 然後執行:mvn package -Dmaven.test.skip=true 然後一直等待他執行完你就可以到專案下得tar

怎麼將maven專案打包成war包

問題：我在eclipse上能執行，然後我想將這個maven專案打包成war然後放到另外一臺機子上（其實是手動放在tomcat的webapp目錄中），提供外部訪問。現在問題是，一直maven專案打包一直出錯。請問大俠怎麼將maven打包好？萬分感謝回答1：右鍵專案，選擇Run As，再選擇Maven build

【Maven】Maven 專案打包成 war 包部署到 Tomcat

【Maven】Maven 專案打包成 war 包部署到 Tomcat 實踐環境作業系統： Windows IDE： Eclipse 打包部署過程　1 專案打包　　1.1 右鍵點選所需要打包的專案，點選如圖所示&

idea maven專案打包jar

目的：使用idea對maven專案打包，打包成jar包注：我之前建立的專案是 springboot 專案，雖然也是用 pom 管理的，但是好像無法打包成這樣的 jar。操作：上圖那個 jar，就是最終打包結果。釋

一個多maven專案聚合的例項

原文： http://my.oschina.net/xuqiang/blog/99854 本文介紹一個多maven專案的例項demo，展示了聚合、繼承、工程依賴、單元測試、多war聚合、cargo釋出等場景一、工程介紹該專案由5個maven專案組成 t

如何把一個基於Maven專案所有的jar檔案快速列出到Excel？

我們在做專案的時候，有的時候根據公司法務部門的要求，我們需要把專案中用到的所有的jar檔案，整出一個Jar檔案的列表，如果專案比較小的話，還好說，如果專案比較大的話，就比較麻煩了，因為jar包之間是有直接和間接依賴的。比如在Maven的配置檔案裡顯式申明瞭A的依賴，但是A的依賴又可能依賴

Maven 專案打包需要注意到的那點事兒

1. 關於 Maven 打 war 包《使用 Eclipse 的 Maven 2 外掛開發一個 JEE 專案》詳細介紹瞭如何在 Eclipse 使用 Maven 新建一個 JEE 專案並對其進行斷點跟蹤除錯，但是沒有介紹如何對 JEE 專案打 war 包。其實很簡單，你只需要把

maven專案打包跳過測試

執行mvn install時跳過Test 方法一: <project> [...] <build> <plugins> <plugin> <groupId>org.ap

使用docker將maven專案打包成映象

最近工作中需要使用docker打包成映象啟動，所以有了這篇文章。差點忘了，你的maven專案中首先要有配置docker打包以下是maven專案的配置 1.pom檔案中加入plugin <plugin>

將Maven專案打包

本來準備將專案打包放伺服器上。結果出現各種問題。寫一篇自己遇到的問題。以及解決方案我用的是mvn clean package 報的錯很明顯。是單元測試的問題。所以在mvn clean package後面加上-Dmaven.test.skip=true 加上

IDEA MAVEN 專案打包檔案到指定目錄

像上一篇文章，我們提到的，IDEA MAVEN struts專案中，如果我們把 struts.xml 檔案放在 src 目錄下，編譯的時候，將無法打包到 *\WEB-INF\classes* 路徑下，執行程式的時候自然就會報錯(404的錯誤，如下圖：) 建議大

maven專案打包的時候忽略第三方依賴jar包

因為專案需要經常性的修改-打包-上傳到伺服器，包含lib的war包比較大，第三方jar包基本不會大動，所以就想把這些jar包移出war包，放在jetty裡面，這樣每次只需要編譯打包原始碼即可，war包大小極度減小，方便上傳。 maven配置 <plug

將Maven專案打包成可執行jar檔案和外種配置方式(引用第三方jar)

http://blog.csdn.net/zhangdaiscott/article/details/6911640 方法一. mvn assembly 或 mvn package (一個jar包) 把依賴包和自己專案的檔案打包如同一個jar包(這種方式對sp

idea中maven專案打包為jar

在idea中打包maven專案時有很多解決的方案，可出乎意料的是，使用某些方案時有一些未知的錯誤情況。經過測驗後，記錄了下面一種簡單有效的方法在pom.xml中新增 <build> <plugins> &l

一個Spark maven專案打包並使用spark-submit執行

相關推薦