1. 程式人生 > >spark處理大資料的幾個例項介紹

spark處理大資料的幾個例項介紹

在叢集中跑應用,而不是在shell中
感受寫spark應用的過程

整個過程為:
1、案例分析:要用哪些spark的RDD的API
2、程式設計實現: 用到scala
3、提交到叢集執行:如何提交到叢集,檔案是否先傳到HDFS上
4、監控執行結果: 通過web可以看到
介紹了四個案例:
比如 統計1千萬個人的平均身高,如果用其他語言,估計要好幾小時,因為磁碟讀寫,要反覆計算
用了spark之後,分散式了,而且還大量使用了記憶體的資源
學到了一個完整的分散式系統的程式是怎麼在叢集上跑的
還有對Spark job 的執行流程簡介
參考連結:
https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/
有四個使用spark的具體例項

我現在的問題:如何放到叢集上跑?本地是沒問題的