-
spark不具有hdfs一樣的持久化數(shù)據(jù)的能力,需要借助hdfs存儲(chǔ)數(shù)據(jù)查看全部
-
spark stream處理實(shí)時(shí)流數(shù)據(jù),如收集從kafaka處理的數(shù)據(jù)進(jìn)行實(shí)時(shí)統(tǒng)計(jì)查看全部
-
sparkSQL處理結(jié)構(gòu)化數(shù)據(jù)庫查看全部
-
快速且通用的集群計(jì)算平臺(tái) 擴(kuò)充了hadoop的mapreduce模型查看全部
-
spark,hadoop,kafka spark基于內(nèi)存,很通用,批式,流式,圖,分布式…… 大數(shù)據(jù)處理平臺(tái)查看全部
-
使用standalone mode啟動(dòng)spark:命令行輸入
$?cd?software/spark-2.4.4-bin-hadoop2.7/sbin $?./start-master.sh 會(huì)輸出log文件地址xxx $?tail?xxx 會(huì)輸出log文件末尾,找到Starting?Spark?master?at?spark://xxx.local:7077, 也可以瀏覽器訪問http://localhost:8080/,出現(xiàn)視頻中的網(wǎng)頁
參考https://uohzoaix.github.io/studies//2014/09/13/sparkRunning/
查看全部 -
這里還可以寫筆記啊
查看全部 -
Spark組件具有緊密集成的優(yōu)點(diǎn):
1、Spark底層優(yōu)化了,基于Spark底層的組件,也得到了相應(yīng)的優(yōu)化。
2、緊密集成,節(jié)省了各個(gè)組件組合使用時(shí)的部署,測試等時(shí)間。
3、向Spark增加新的組件時(shí),其他組件可以立刻享用新組件的功能
Spark Core:
1、包含Spark的基本功能,包含任務(wù)調(diào)度,內(nèi)存管理,容錯(cuò)機(jī)制等。
2、內(nèi)部定義了RDDs(彈性分布式數(shù)據(jù)集)。
3、提供了很多APIs來創(chuàng)建和操作這些RDDs。
應(yīng)用場景,為其他組件提供底層的方服務(wù)。
查看全部 -
RDDs的特性:
血統(tǒng)關(guān)系圖,
延遲計(jì)算,
.persist()緩存
查看全部 -
開發(fā)Spark程序
查看全部 -
Spark Shell
查看全部 -
Spark對比Hadoop(2)
查看全部 -
Spark對比Hadoop(1)
查看全部 -
Spark采用緊密集成框架的優(yōu)勢
查看全部 -
Spark 集群管理?
查看全部
舉報(bào)