在windows 7中安裝部署spark(python版)
一、搭建的環境
windows7
spark-2.3.2
python-3.6.5
Java8
二、安裝部署
1、安裝Java/Jdk
下載jdk-8u152-windows-x64.exe,根據安裝指南進行安裝,配置環境變數JAVA_HOME,在Path中新增%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin,在CLASSPATH中新增%JAVA_HOME%\lib;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar。
配置完成後, 在CMD中執行java -version檢查是否安裝成功。
2、安裝Spark
下載spark-2.3.2-bin-hadoop2.7.tgz,http://apache.communilink.net/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz。解壓到指定路徑,新增環境變數SPARK_HOME到該路徑,並在Path中新增%SPARK_HOME%\bin和%SPARK_HOME%\sbin
3、安裝Python
下載python-3.6.5-amd64.exe,https://www.python.org/ftp/python/3.6.5/python-3.6.5-amd64.exe。根據安裝指南進行安裝。安裝完成後,在CMD中執行python --version檢查安裝是否成功。
將spark\python\pyspark整個資料夾複製到Anaconda3\Lib\site-packages資料夾中。
另外,需要在python中安裝py4j。
pip install py4j
4、安裝Hadoop
根據下載的Spark版本,下載相應版本的hadoop2.7.7,http://mirror-hk.koddos.net/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz 。解壓到指定路徑,新增環境變數HADOOP_HOME為該路徑,並在Path中新增%HADOOP_HOME%\bin。將hadoop.dll,winutils.exe拷貝到%HADOOP_HOME%\bin目錄。
ps:可自行在windows7 中編譯hadoop原始碼已得到相應的hadoop.dll,winutils.exe等,具體操作比步驟可參考https://blog.csdn.net/LiuQQu/article/details/83825304。
三、驗證
開啟IDLE,執行以下命令:
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local[*]").setAppName("test")
sc = SparkContext(conf=conf)
這時,彈出一個dos視窗。
在IDLE中繼續輸入:
data = sc.parallelize(range(10))
sum = data.reduce(lambda x, y: x + y)
print(sum)
輸出45。
驗證成功,按Ctrl+D退出Spark shell。
參考文章:https://blog.csdn.net/hjxinkkl/article/details/57083549