-
Spark Streaming:
是實(shí)時的數(shù)據(jù)流處理組件,類似Storm。
Spark Streaming提供了API來操作實(shí)時數(shù)據(jù)流數(shù)據(jù)
應(yīng)用場景,企業(yè)中用來從Kafka來接收數(shù)據(jù)做實(shí)時統(tǒng)計
查看全部 -
Spark SQL:
是Spark處理結(jié)構(gòu)化數(shù)據(jù)的庫,就像Hive SQL、Mysql一樣。
應(yīng)用場景:企業(yè)中用來做報表統(tǒng)計
查看全部 -
Spark Core:
1、包含Spark的基本功能,包含任務(wù)調(diào)度,內(nèi)存管理,容錯機(jī)制等。
2、內(nèi)部定義了RDDs(彈性分布式數(shù)據(jù)集)。
3、提供了很多APIs來創(chuàng)建和操作這些RDDs。
應(yīng)用場景,為其他組件提供底層的方服務(wù)。
查看全部 -
Spark組件
查看全部 -
Spark歷史
查看全部 -
Spark歷史
Mapreduce在迭代式計算和交互式上低效,引入了內(nèi)存存儲
查看全部 -
Spark課程大綱
查看全部 -
RDD不可改變的分布式數(shù)據(jù)集合對象
所有的計算都是RDD的生成,轉(zhuǎn)換操作完成
一個RDD內(nèi)部由許多partitions分片組成
分片是并行處理單元, spark底層會并行的,或者順行的處理。
查看全部 -
RDDs總共有兩種操作:transformations、actions
查看全部 -
RDDs特性
1、血統(tǒng)關(guān)系圖
2、延遲計算:只有對RDDs開始進(jìn)行action操作時,才會加載RDDs(對大數(shù)據(jù)處理十分有效)
3、RDDs.presist(),重復(fù)利用RDDs時。(什么作用?)
查看全部 -
RDDs(彈性數(shù)據(jù)集)即是加載外部數(shù)據(jù)集(被解析文件)賦值的變量或者是用parallelize方法將一個集合賦值給的變量,RDDs創(chuàng)建后就不會改變了,且是分片后放在不同機(jī)器上,并行處理分片就能加快速度
val定義的RDDs不可修改
var定義的可以修改為同類型的值
變量需要定義
=>表示。。。
查看全部 -
combineBykey一次沒看懂,過會兒學(xué)完Scala 和 函數(shù)式變成再過來學(xué)習(xí)一遍。。。。。
查看全部 -
hello !
Hello Spark
Hello World
after flatmap(line>> line.split(" " ))
hello
!
Hello
Spark
Hello
World
查看全部 -
flatMap 更細(xì)致元素,每一個全部
查看全部 -
spark 啟動 master worker? 、
查看全部
舉報