首頁猿問 Spark -...

Spark - repartition（）vs coalesce（）

源碼算法與數(shù)據(jù)結(jié)構(gòu)

慕的地8271018 2019-07-25 19:37:29

Spark - repartition（）vs coalesce（）根據(jù)Learning Spark的說法請(qǐng)記住，重新分區(qū)數(shù)據(jù)是一項(xiàng)相當(dāng)昂貴的操作。Spark還有一個(gè)優(yōu)化版本的repartition（），稱為coalesce（），它允許避免數(shù)據(jù)移動(dòng)，但前提是你減少了RDD分區(qū)的數(shù)量。我得到的一個(gè)區(qū)別是，使用repartition（）可以增加/減少分區(qū)數(shù)量，但是使用coalesce（）時(shí)，只能減少分區(qū)數(shù)量。如果分區(qū)分布在多臺(tái)機(jī)器上并運(yùn)行coalesce（），它如何避免數(shù)據(jù)移動(dòng)？

查看完整描述

3 回答

茅侃侃

TA貢獻(xiàn)1842條經(jīng)驗(yàn) 獲得超22個(gè)贊

它避免了完全洗牌。如果已知數(shù)量正在減少，則執(zhí)行程序可以安全地將數(shù)據(jù)保存在最小數(shù)量的分區(qū)上，僅將數(shù)據(jù)從額外節(jié)點(diǎn)移出到我們保留的節(jié)點(diǎn)上。

所以，它會(huì)是這樣的：

Node 1 = 1,2,3Node 2 = 4,5,6Node 3 = 7,8,9Node 4 = 10,11,12

然后coalesce下至2個(gè)分區(qū)：

Node 1 = 1,2,3 + (10,11,12)Node 3 = 7,8,9 + (4,5,6)

請(qǐng)注意，節(jié)點(diǎn)1和節(jié)點(diǎn)3不需要移動(dòng)其原始數(shù)據(jù)。

反對(duì) 回復(fù) 2019-07-25

3 回答
0 關(guān)注
926 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Spark - repartition（）vs coalesce（）

Spark - repartition（）vs coalesce（）

3 回答

添加回答