-
RDDs combineByKey()
查看全部 -
keyvalue RDDs
查看全部 -
keyvalue RDDs
查看全部 -
RDD持久化
查看全部 -
Rdds的延遲計算
查看全部 -
RDDs的特性
查看全部 -
driver
查看全部 -
spark查看全部
-
Scala安裝
????默認(rèn)安裝選項會自動配置環(huán)境變量
????spark 1.6.2 -Scala 2.10
????spark 2.0.0 -Scala 2.11
在Intellij 上安裝插件
????在Plugins,搜索Scala 直接安裝,插件中有Scala和sbt
新建項目
????file->new->project->scala->sbt
????sbt version 0.13.8? ----? scala version 2.10.5
搭建開發(fā)環(huán)境經(jīng)常遇到的問題
????網(wǎng)絡(luò)問題;
????版本匹配問題(Scala2.10.5,jdk1.8,spark1.6.2,sbt0.113.8)
查看全部 -
spark的運行環(huán)境:
????基于Scala ,運行在JVM,運行環(huán)境Java7+
spark下載:
????搭建spark不需要Hadoop,下載后解壓
????虛擬機(jī)(Linux)聯(lián)網(wǎng)狀態(tài)下,通過? wget+下載鏈接
????Linux解壓命令? tar -zxvf spark.....
spark目錄
????bin目錄-可執(zhí)行文件
????core,streaming主要包含組件源代碼
????examples 包含單機(jī)例子
spark的shell:
????梳理分布在集群上的數(shù)據(jù)
????可以將數(shù)據(jù)加載到節(jié)點的內(nèi)存中,因此分布式處理可在秒級完成。
????快速迭代計算,實時查詢、分析
????spark提供了Python shell和Scala shell
Scala shell
????/bin/spark-shell
查看全部 -
spark與Hadoop的比較
????Hadoop的應(yīng)用場景:離線處理,對時效性要求不高
????spark的應(yīng)用場景:對時效性要求高,機(jī)器學(xué)習(xí)領(lǐng)域
查看全部 -
spark core:
????包含spark的基本功能,任務(wù)調(diào)度,內(nèi)存管理,容錯機(jī)制
????內(nèi)部定義了RDDs,彈性分布式數(shù)據(jù)集
spark sql:
????是spark處理結(jié)構(gòu)化數(shù)據(jù)的庫
spark streaming:
????實時數(shù)據(jù)流處理組件
milb:
????包含通用機(jī)器學(xué)習(xí)功能的包,分類,聚類,回歸
????支持起群上的橫向擴(kuò)展
graphx:
????處理圖的庫,并進(jìn)行圖的并行計算
cluster managers:??
????集群管理
緊密集成的優(yōu)點
????spark底層優(yōu)化了,基于spark的底層組件也會得到相應(yīng)的優(yōu)化。
緊密繼承節(jié)省了各個組價組合使用時的部署,測試等時間
向spark增加新的組件時,其他組件,可立刻享用新組建的功能。
查看全部 -
spark 是一個快速且通用的集群計算平臺
基于內(nèi)存的運算
通用性;降低維護(hù)成本
spark是高度開放的;Python Java scala haddoop
查看全部 -
Hadoop適合處理離線的靜態(tài)的大數(shù)據(jù) Spark適合處理離線的流式的大數(shù)據(jù) Storm適合處理在線的實時的大數(shù)據(jù)
查看全部 -
通用性?-?Spark提供大量的庫,包括Spark?Core、Spark?SQL、?Spark?Streaming、MLlib、Graphx.開發(fā)者可以在同一個應(yīng)用程序中無縫組合使用這些庫。 支持多種資源管理器?-?Spark支持Hadoop?YARN,?Apache?Mesos,?及其自帶的獨立集群管理器。
查看全部
舉報