Spark學習(二)win10部署Hadoop+Spark
1.Hadoop
(1)安裝配置
基礎只需要配置core-site.xml和hdfs-site.xml就行。
參考:
https://www.jianshu.com/p/aa8cfaa26790【這個教程的core-site.xml和hdfs-site.xml的內容弄反了,交換一下就行】
http://dblab.xmu.edu.cn/blog/install-hadoop/【這是Linux的】
https://blog.csdn.net/Sylarjyd/article/details/91038732【這是包括yarn的配置】
(2)開啟Hadoop
命令列:hadoop namenode -format
啟動:進入sbin目錄,雙擊start-dfs.cmd【僅啟動dfs】或者start-all.cmd【啟動所有,包括yarn】
命令列:jps檢視程序
(3)檢視
通過http://127.0.0.1:8088/即可檢視叢集所有節點狀態
訪問http://localhost:9870/即可檢視Hadoop檔案管理頁面。
2.Spark
(1)安裝
https://blog.csdn.net/u011513853/article/details/52865076
檢視:http://localhost:4040/jobs/
(2)執行Spark自帶的例子:run-example SparkPi
(3)啟動master和slave
我一個單機win10怎麼弄另外一個master?!!!百度TMD兩天,不如Google一下,我也是醉了!!我發誓,一定養成Google習慣,不是非要英語,而是搜尋引擎不行!!
ps:spark提交作業,支援多種cluster manage
型別:Standalone,Apache Mesos,Hadoop YARN,Kubernetes,這裡採用Standalone的偽分散式。
後來才發現,官方文件https://spark.apache.org/docs/1.6.0/submitting-applications.html也有一丟丟提示,卻沒給怎麼設定!
原答案:http://damn.amsterdam/sparkonwindows/
沒有master,新開一個cmd視窗,造一個master,系統會給你分配一個master IP和埠
效果: