首頁猿問 SPARK：了解合并方法？

SPARK：了解合并方法？

Java

動漫人物 2023-03-17 15:17:03

我正在嘗試了解 spark 中的 coalesce 方法。我有一個JavaRDD<String>（由 16310 個字符串組成），我想將它保存在 233 個文件中。（一個文件有 70 個字符串）首先，我嘗試了trainDataFeatures.repartition(233).saveAsTextFile(outputPathTrainFeatures);這很好用，但我不想洗牌我的數(shù)據(jù)。所以我嘗試了：trainDataFeatures.coalesce(233, false).saveAsTextFile(outputPathTrainFeatures);在這里我只有 4 個輸出文件。沒有洗牌，但只有 4 個?。?！這真的很煩人。也許有人可以幫我解決這個問題。

查看完整描述

1 回答

胡子哥哥

TA貢獻1825條經(jīng)驗獲得超6個贊

我認(rèn)為這就是重點，也是coalesce和之間最大的區(qū)別repartition。

Repartition 會對數(shù)據(jù)進行全面洗牌，以便能夠創(chuàng)建這些額外的分區(qū)。Coalesce 在現(xiàn)有分區(qū)之間移動數(shù)據(jù)并避免創(chuàng)建新分區(qū)并避免完整的數(shù)據(jù)混洗。

基本上，coalesce 不會為您創(chuàng)建額外的分區(qū)這一事實是 coalesce 的一個特性。

與重新分區(qū)相同——由于完整的數(shù)據(jù)洗牌，它能夠以高效的方式工作。您可能不關(guān)心性能，只想增加分區(qū)數(shù)量而不進行洗牌 - 好吧，之前有人有過這個想法，這個問題在這里仍然懸而未決。

反對回復(fù) 2023-03-17

1 回答
0 關(guān)注
98 瀏覽

關(guān)注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

SPARK：了解合并方法？

SPARK：了解合并方法？

1 回答

添加回答

SPARK：了解合并方法？

SPARK：了解合并方法？