jupyter中使用pyspark連線spark叢集

阿新 • • 發佈：2018-12-29

目標:此文在jupyter中配置pyspark,並非配置pyspark的核心,而是希望在python3的核心下,使用pyspark連線spark叢集.
準備:spark單機版 , jupyter notebook ,且兩者不在同一機子上

1.安裝

在預設的jupyter notebook中是沒有pyspark包的,所以需要下載依賴包才行.
網上現在有2個包,支援python 去連線 spark . 一個是findspark,經過測試,在建立sparkcontext的時候,它會讀取jupyter的機子上的spark環境,因為這兩者不是在同一機子上,所以不行. 另外一個是pyspark包,此包同時依賴了 pypandoc 和 py4j 兩個包,需要先安裝.
ps:jupyter機子需要jdk環境

2.測試

安裝之後,可以在jupyter 中匯入pyspark包了

import pyspark
from pyspark import SparkConf, SparkContext
----
#driver意思為連線spark叢集的機子,所以配置host要配置當前編寫程式碼的機子host
conf = SparkConf().setMaster('spark_host').set('spark.driver.host','連線spark叢集的本機host').set('spark.local.ip','連線spark叢集的本機host')
sc = SparkContext.getOrCreate(conf)
sc 檢測一下此sc的資訊.可以發現成功連線到master所在的spark

ps:因為單機版spark,需要在spark/sbin 目錄下啟動start-master.sh 和 start-slave.sh spark://xxxx:7077 ,啟動master和 worker節點.不然在jupyter中提交的job是不會執行的.

jupyter中使用pyspark連線spark叢集

1.安裝

2.測試

jupyter中使用pyspark連線spark叢集

分散式sparkSQL引擎應用：從遠端通過thriftServer連線spark叢集處理hive中的資料

Linux中安裝配置spark叢集

Spark叢集環境搭建中所遇到的問題

spark中各種連線操作以及實用方法

在spark叢集中執行程式遇到的一些問題

VMware NAT模式連線hadoop/spark叢集

spark叢集從HDFS中讀取資料並計算

蝸龍徒行-Spark學習筆記【四】Spark叢集中使用spark-submit提交jar任務包實戰經驗

IDEAJ中Scala打包提交Spark叢集執行

為Spark叢集配置jupyter notebook的Spark kernel

如何在 Kubernetes 環境中運行 Spark 集群

在jupyter中配置python3

golang中redis連線池

IDEA編寫wordcount，讀取hdfs檔案，執行在Spark叢集例子

Linux下安裝spark叢集

mongodb使用三—java中使用連線mongdb

centos中vnc安裝及windows中遠端連線

centos7.3中搭建hadoop分散式叢集環境詳細過程

在VMWare中建立Hadoop虛擬叢集的詳細步驟使用CentOS

jupyter中使用pyspark連線spark叢集

1.安裝

2.測試

相關推薦