1. 程式人生 > >在windows 7中安裝部署spark(python版)

在windows 7中安裝部署spark(python版)

一、搭建的環境

windows7

spark-2.3.2

python-3.6.5

Java8

二、安裝部署

1、安裝Java/Jdk

下載jdk-8u152-windows-x64.exe,根據安裝指南進行安裝,配置環境變數JAVA_HOME,在Path中新增%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin,在CLASSPATH中新增%JAVA_HOME%\lib;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar。

配置完成後, 在CMD中執行java -version檢查是否安裝成功。

2、安裝Spark

下載spark-2.3.2-bin-hadoop2.7.tgz,http://apache.communilink.net/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz。解壓到指定路徑,新增環境變數SPARK_HOME到該路徑,並在Path中新增%SPARK_HOME%\bin和%SPARK_HOME%\sbin

3、安裝Python

下載python-3.6.5-amd64.exe,https://www.python.org/ftp/python/3.6.5/python-3.6.5-amd64.exe。根據安裝指南進行安裝。安裝完成後,在CMD中執行python --version檢查安裝是否成功。

將spark\python\pyspark整個資料夾複製到Anaconda3\Lib\site-packages資料夾中。

另外,需要在python中安裝py4j。

pip install py4j

4、安裝Hadoop

根據下載的Spark版本,下載相應版本的hadoop2.7.7,http://mirror-hk.koddos.net/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz 。解壓到指定路徑,新增環境變數HADOOP_HOME為該路徑,並在Path中新增%HADOOP_HOME%\bin。將hadoop.dll,winutils.exe拷貝到%HADOOP_HOME%\bin目錄。

ps:可自行在windows7 中編譯hadoop原始碼已得到相應的hadoop.dll,winutils.exe等,具體操作比步驟可參考https://blog.csdn.net/LiuQQu/article/details/83825304

三、驗證

開啟IDLE,執行以下命令:

from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local[*]").setAppName("test")
sc = SparkContext(conf=conf)

這時,彈出一個dos視窗。

在IDLE中繼續輸入:

data = sc.parallelize(range(10))
sum = data.reduce(lambda x, y: x + y)
print(sum)

輸出45。

驗證成功,按Ctrl+D退出Spark shell。

 

參考文章:https://blog.csdn.net/hjxinkkl/article/details/57083549