spark學習記錄（三、spark叢集搭建）

阿新 • • 發佈：2019-01-13

一、安裝spark

1.上傳壓縮包並解壓

2.在conf目錄下配置slaves

cp slaves.template slaves

//在master機上配置worker節點
hadoop2
hadoop3

3.配置spark-env.sh

cp spark-env.sh.template spark-env.sh

export SPARK_MASTER_IP=hadoop1
export SPARK_MASTER_PORT=7077
//每臺worker使用的cpu核數
export SPARK_WORKER_CORES=2
//每臺worker的使用記憶體
export SPARK_WORKER_MEMORY=1g
//webUI頁面埠號
export SPARK_MASTER_WEBUI_PORT=8888

4.將spark檔案複製到其他機子上

scp -r spark-2.4.0-bin-hadoop2.7/ hadoop2:/usr/local/

5.驗證

在sbin目錄下

二、執行案例

spark官方提供了一個案例，求π的值

object SparkPI {

  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("Spark Pi").setMaster("local[2]")
    val spark = new SparkContext(conf);

    val slices = 100;
    val n = 1000 * slices  //選n個點
    val count = spark.parallelize(1 to n,slices).map({ i =>
      def random: Double = java.lang.Math.random()
      //這裡取圓心為座標軸原點，在正方向中不斷的隨機選點
      val x = random * 2 - 1
      val y = random * 2 - 1
      println(x+"--"+y)
      //通過在圓內的點
      if (x*x + y*y < 1) 1 else 0

    }).reduce(_ + _)

    //pi=S2=S1*count/n
    println("Pi is roughly " + 4.0 * count / n)

    spark.stop()
  }
}

在bin目錄下執行

./spark-submit --master spark://hadoop1:7077 --class org.apache.spark.examples.SparkPi /usr/local/spark-2.4.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.4.0.jar

Storm學習記錄（三、Storm叢集搭建）

一、單機搭建 1.上傳並解壓jar包 2.在storm目錄下建立logs目錄，以儲存程式執行時的資訊 mkdir logs 3.在bin目錄下執行命令，啟動zookeeper ./storm dev-zookeeper >> ../logs/dev-zookeeper

spark學習記錄（三、spark叢集搭建）

一、安裝spark 1.上傳壓縮包並解壓 2.在conf目錄下配置slaves cp slaves.template slaves //在master機上配置worker節點 hadoop2 hadoop3 3.配置spark-env.sh cp spark-env.sh.t

spark學習記錄（五、Spark基於資源排程管理器的提交模式）

一、Standalone（Spark自帶） 1.1 Standalone-client模式提交命令： ./spark-submit --master spark://hadoop1:7077 --class org.apache.spark.examples.Spar

Spark學習記錄（三）核心API模組介紹

spark ------------- 基於hadoop的mr，擴充套件MR模型高效使用MR模型，記憶體型叢集計算，提高app處理速度。 spark特點 ------------- 速度:在記憶體中儲存中間結果。支援多種語言。Scala、Java、Python 內建了80+的運算元. 高階分析

spark學習記錄（二、RDD）

一、概念 RDD（Resilient Distributed Dataset）叫做彈性分散式資料集，是Spark中最基本的資料抽象，它代表一個不可變、可分割槽、裡面的元素可平行計算的集合。RDD具有資料流模型的特點：自動容錯、位置感知性排程和可伸縮性。RDD允許使用者在執行多個查詢時顯式地將工作

spark學習記錄（十三、SparkStreaming）

一、SparkStreaming簡介 SparkStreaming是流式處理框架，是Spark API的擴充套件，支援可擴充套件、高吞吐量、容錯的實時資料流處理，實時資料的來源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，並且可以使用高階功能的複雜

spark學習記錄（十、SparkSQL）

一、介紹 SparkSQL支援查詢原生的RDD。 RDD是Spark平臺的核心概念，是Spark能夠高效的處理大資料的各種場景的基礎。能夠在Scala中寫SQL語句。支援簡單的SQL語法檢查，能夠在Scala中寫Hive語句訪問Hive資料，並將結果取回作為RDD使用。 D

spark學習記錄（八、廣播變數和累加器）

一、廣播變數 public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.setMaster("

spark學習記錄（九、MasterHA和Spark shuffle）

一、zookeeper配置MasterHA 1.1修改conf下的spark-env.sh ： export SPARK_DAEMON_JAVA_OPTS="-Dspark-deploy-recoveryMode=ZOOKEEPER -Dspark.deploy.zookee

spark學習記錄（七、二次排序和分組取TopN問題）

1.二次排序例題：將兩列數字按第一列升序，如果第一列相同，則第二列升序排列資料檔案：https://download.csdn.net/download/qq_33283652/10894807 將資料封裝成物件，對物件進行排序，然後取出value public class Se

spark學習記錄（六、基礎知識）

1.術語解釋 2.SparkCore和SparkSQL知識點思維導圖整理 https://download.csdn.net/download/qq_33283652/10890863 3.RDD的寬窄依賴相同的key去同一個分割槽，但一個分割槽可以用不同的key

spark學習記錄（四、運算元（函式））

1.Transformations轉換運算元 Transformations類運算元是一類運算元（函式）叫做轉換運算元，如map,flatMap,reduceByKey等。Transformations運算元是延遲執行，也叫懶載入執行。 filter：過濾符合條件的記錄數，true保留

spark學習記錄（一、scala與java編寫wordCount比較）

新增依賴： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12<

Hadoop學習記錄（三、MapReduce）

1.將一個日誌檔案上傳到hdfs上 2. 編寫mapReduce程式碼 2.1新建一個maven專案，新增依賴 <dependencies> <dependency> <groupId>

Hadoop學習記錄（一、Hadoop叢集的搭建）

參考：http://www.zuidemo.com/filePreview/pdfFilePreview/11202並進行補充 1.新建七個centos7系統的虛擬機器，分別命名為cluster1,cluster2等。關閉防火牆。 2.七臺主機都修改host檔案 vi /etc/host

Hadoop學習記錄（五、hadoop IO操作）

1.壓縮從標準輸入讀取的資料，然後將其寫到標準輸出通過GzipCodec的StreamCompressor物件對字串“Text”進行壓縮，再使用gunzip從標準輸出中對它進行讀取並解壓縮 public class StreamCompressor { public static

Hadoop學習記錄（二、hdfs shell命令）

在/usr/local/hadoop-2.9.2/bin目錄下執行命令 1.檢視根目錄： ./hdfs dfs -ls / 2.檔案上傳：上傳到根目錄 ./hdfs dfs -put /tmp/test.txt / 3.檢視檔案內容 ./hdfs df

Spark學習記錄（二）Spark叢集搭建

Hadoop Spark叢集搭建，以及IDEA遠端除錯環境：Hadoop-2.7.2 jdk-1.8 scala-2-11-12 spark-2.1.0 spark2.0.0開始，只支援Java8版本了，

spark學習記錄（十四、kafka）

一、簡介 kafka是一個高吞吐的分散式訊息佇列系統。特點是生產者消費者模式，先進先出（FIFO）保證順序，自己不丟資料，預設每隔7天清理資料。訊息列隊常見場景：系統之間解耦合、峰值壓力緩衝、非同步通訊。 Kafka架構是由producer（訊息生產者）、consumer（訊息消費者）

spark學習記錄（十二、Spark UDF&UDAF&開窗函式）

一、UDF&UDAF public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.

spark學習記錄（三、spark叢集搭建）

一、安裝spark

二、執行案例

相關推薦