第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定

Spark Shuffle之Tungsten Sort Shuffle

標(biāo)簽:
Spark

源文件放在github,随着理解的深入,不断更新,如有谬误之处,欢迎指正。原文链接https://github.com/jacksu/utils4s/blob/master/spark-knowledge/md/tungsten-sort-shuffle.md
正如你所知,spark实现了多种shuffle方法,通过 spark.shuffle.manager来确定。暂时总共有三种:hash shuffle、sort shuffle和tungsten-sort shuffle,从1.2.0开始默认为sort shuffle。本节主要介绍tungsten-sort。spark在1.4以后可以通过(spark.shuffle.manager = tungsten-sort)开启Tungsten-sort shuffle。如果Tungsten-sort 发现自己无法处理,则会自动使用 Sort Based Shuffle进行处理。Tungsten-sort优化点主要有:

  • 直接在serialized binary data上操作,不需要反序列化,使用unsafe内存copy函数直接copy数据。

  • 提供cache-efficient sorter  ShuffleExternalSorter  排序压缩记录指针和partition ids,使用一个8bytes的指针,把排序转化成了一个指针数组的排序。

  • spilling的时候不需要反序列化和序列化

  • spill的merge过程也无需反序列化即可完成,但需要shuffle.unsafe.fastMergeEnabled的支持

当且仅当下面条件都满足时,才会使用新的Shuffle方式:

  • Shuffle dependency 不能带有aggregation 或者输出需要排序

  • Shuffle 的序列化器需要是 KryoSerializer 或者 Spark SQL's 自定义的一些序列化方式.* > Shuffle 文件的数量不能大于 16777216

  • 序列化时,单条记录不能大于 128 MB

优点

很多性能的优化

缺点

  1. 不可以在mapper端排序

  2. 不稳定

  3. 没有提供off-heap排序缓存



作者:jacksu在简书
链接:https://www.jianshu.com/p/db3fea9c124c


點(diǎn)擊查看更多內(nèi)容
TA 點(diǎn)贊

若覺得本文不錯(cuò),就分享一下吧!

評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中
  • 推薦
  • 評(píng)論
  • 收藏
  • 共同學(xué)習(xí),寫下你的評(píng)論
感謝您的支持,我會(huì)繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會(huì)直接到老師賬戶
支付方式
打開微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會(huì)
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

舉報(bào)

0/150
提交
取消