-
sprak 快速,擴(kuò)充了mapreduce計(jì)算模型 基于內(nèi)存計(jì)算 通用 批處理 迭代式計(jì)算 交互查詢 流處理 優(yōu)點(diǎn) 降低維護(hù)成本 高度開放 有python java scala 與 hadoop kalfka查看全部
-
spark安裝查看全部
-
lazy evaluation 延遲計(jì)算,有點(diǎn)類似hibernate的延遲加載查看全部
-
foreach() 結(jié)果不返回到本地查看全部
-
spark 和hadoop的比較 應(yīng)用場景 hadoop的中間數(shù)據(jù)落在硬盤上 時(shí)效性不好 spark是基于內(nèi)存的,中間數(shù)據(jù)在硬盤上,計(jì)算時(shí)間是秒級(jí)的 spark適合于機(jī)器學(xué)習(xí) spark不具有HDFS的存儲(chǔ)能力,要借助HDFS等持久化數(shù)據(jù)查看全部
-
spark有很多組件(緊密集成): spark core spark sql spark streaming(實(shí)時(shí)流處理) Mlib(機(jī)器學(xué)習(xí)) Graphx 圖計(jì)算 繼承了RDD API Cluster Managers 集群管理 緊密集成的優(yōu)點(diǎn):-----查看全部
-
spark是一個(gè)快速并且通用的集群計(jì)算平臺(tái) 快速:t級(jí)別 秒級(jí)別 spark是基于內(nèi)存的計(jì)算 spark的功能:批處理 迭代式計(jì)算 交互查詢 流計(jì)算 spark是高度開放的 :提供了python java Scala sql的API 與其他的大數(shù)據(jù)工具整合的很好查看全部
-
rdd不可改變查看全部
-
resilient distributed datasets查看全部
-
不錯(cuò)查看全部
-
Action查看全部
-
啟動(dòng)master、worker 提交作業(yè)查看全部
-
mark查看全部
-
緊密集成的優(yōu)點(diǎn): Spark底層優(yōu)化了,基于Spark底層的組件,也得到了相應(yīng)的優(yōu)化. 緊密集成,節(jié)省了各個(gè)組件組合使用時(shí)的步數(shù),測試等時(shí)間. 向Spark增加新的組件時(shí),其他組件,可立刻享用新組件的功能.查看全部
-
Cluster Managers:集群管理,Spark自帶一個(gè)集群管理是單獨(dú)調(diào)度器.查看全部
舉報(bào)
0/150
提交
取消