1. 程式人生 > >從0開始學pyspark(一):ubuntu pyspark執行環境配置

從0開始學pyspark(一):ubuntu pyspark執行環境配置

最近在研究spark,雖然windows下也能安裝執行spark(親測可行,但是開放9000埠還是連線不上docker上部署的hdfs),但是在windows下使用多有不便,於是安裝了雙系統(網上教程很多),如果在安裝過程中出現卡死問題,可以看看這篇能不能解決 https://blog.csdn.net/tonydz0523/article/details/80532615

在ubuntu上配置環境比較簡單:
1、安裝java
2、安裝spark

安裝java

這裡寫圖片描述

下載最新的tar包,別忘了點accept license
2、sudo mkdir /usr/lib/jdk
3、系統預設下載到download資料夾,開啟終端cd 到下載檔案資料夾,或者檔案管理器找到資料夾後右鍵開啟終端
4、sudo tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/lib/jdk


5、然後我們需要配置PATH路徑,讓jdk命令在任何路徑下都能夠直接執行
sudo gedit /etc/profile
沒有安裝gedit的可以 vi vim都行
在配置檔案後加上

# java
export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_171  
export JRE_HOME=${JAVA_HOME}/jre  
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib  
export PATH=${JAVA_HOME}/bin:$PATH

6、重新載入/etc/profile配置檔案
source /etc/proflie


7、執行java -version檢視java是否安裝成功
出現如下結果說明安裝成功

java version "1.8.0_171"
Java(TM) SE Runtime Environment (build 1.8.0_171-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.171-b11, mixed mode)

安裝spark

這裡寫圖片描述
下載包到本地
2、sudo mkdir /usr/lib/spark
3、系統預設下載到download資料夾,開啟終端cd 到下載檔案資料夾,或者檔案管理器找到資料夾後右鍵開啟終端
4、sudo tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C /usr/lib/spark


5、配置spark

cd /usr/lib/spark/spark-2.3.0-bin-hadoop2.7/conf/  
sudo cp spark-env.sh.template spark-env.sh  
sudo gedit spark-env.sh 

在最後加上

JAVA_HOME=/usr/lib/jdk/jdk1.8.0_171  
SPARK_WORKER_MEMORY=4g

6、然後我們需要配置PATH路徑,讓jdk命令在任何路徑下都能夠直接執行
sudo gedit /etc/profile
沒有安裝gedit的可以 vi vim都行
在配置檔案後加上

#spark 
export SPARK_HOME=/usr/lib/spark/spark-2.3.0-bin-hadoop2.7
export PATH=${SPARK_HOME}/bin:$PATH

7、重新載入/etc/profile配置檔案
source /etc/proflie
8、執行 pyspark 檢視spark是否安裝成功
出現如下結果說明安裝成功
這裡寫圖片描述

安裝pyspark

由於本人使用python操作spark,所以使用 pip 安裝了pyspark
pip install pyspark
不知道不裝有沒有影響,沒有嘗試
開啟python執行

from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').appName('test').getOrCreate()

執行順利說明安裝成功

附:

python環境:anaconda安裝

1、下載anaconda,由於官網太慢了,我們到清華映象站下載:
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
拉倒最後就是新版本
這裡寫圖片描述
2、下載完成cd到檔案目錄執行sudo sh Anaconda3-5.1.0-Linux-x86_64.sh 開始安裝一路回車,yes 就行;最後有個微軟的軟體沒啥用可以no
3、配置系統預設使用anaconda裡的python
sudo gedit ~/.bashrc
根據anaconda安裝位置配置alias python
這裡寫圖片描述
4、終端輸入python,結果如下說明配置完成
這裡寫圖片描述

5、ide的話初學推薦pycharm,其實anaconda自帶jupyter notebook 就很好用

本人剛接觸spark如果有什麼錯誤的話請留言指出