1 回答

TA貢獻(xiàn)1875條經(jīng)驗(yàn) 獲得超5個(gè)贊
從運(yùn)行層面來(lái)看,Transformation實(shí)際上是一種鏈?zhǔn)降倪壿婣ction,記錄了RDD演變的過(guò)程。Action則是實(shí)質(zhì)觸發(fā)
Transformation開(kāi)始計(jì)算的動(dòng)作,由于在每個(gè)Transformation的過(guò)程中都有記錄,所以每個(gè)RDD是知道上一個(gè)RDD是怎樣轉(zhuǎn)變?yōu)?br/>當(dāng)前狀態(tài)的,所以如果出錯(cuò)就可以很容易的重新演繹計(jì)算過(guò)程。
Transformation和Actions操作概況Transformation具體內(nèi)容
map(func) :返回一個(gè)新的分布式數(shù)據(jù)集,由每個(gè)原元素經(jīng)過(guò)func函數(shù)轉(zhuǎn)換后組成
filter(func) : 返回一個(gè)新的數(shù)據(jù)集,由經(jīng)過(guò)func函數(shù)后返回值為true的原元素組成
*flatMap(func) : 類(lèi)似于map,但是每一個(gè)輸入元素,會(huì)被映射為0到多個(gè)輸出元素(因此,func函數(shù)的返回值是一個(gè)Seq,而不是單一元素)
flatMap(func) : 類(lèi)似于map,但是每一個(gè)輸入元素,會(huì)被映射為0到多個(gè)輸出元素(因此,func函數(shù)的返回值是一個(gè)Seq,而不是單一元素)
sample(withReplacement, frac, seed) :
根據(jù)給定的隨機(jī)種子seed,隨機(jī)抽樣出數(shù)量為frac的數(shù)據(jù)
union(otherDataset) : 返回一個(gè)新的數(shù)據(jù)集,由原數(shù)據(jù)集和參數(shù)聯(lián)合而成
groupByKey([numTasks]) :
在一個(gè)由(K,V)對(duì)組成的數(shù)據(jù)集上調(diào)用,返回一個(gè)(K,Seq[V])對(duì)的數(shù)據(jù)集。注意:默認(rèn)情況下,使用8個(gè)并行任務(wù)進(jìn)行分組,你可以傳入numTask可選參數(shù),根據(jù)數(shù)據(jù)量設(shè)置不同數(shù)目的Task
reduceByKey(func,
[numTasks]) :
在一個(gè)(K,V)對(duì)的數(shù)據(jù)集上使用,返回一個(gè)(K,V)對(duì)的數(shù)據(jù)集,key相同的值,都被使用指定的reduce函數(shù)聚合到一起。和groupbykey
- 1 回答
- 0 關(guān)注
- 1064 瀏覽
添加回答
舉報(bào)