數(shù)據(jù)傾斜問題
請問老師,當(dāng)集群一共有4個(gè)節(jié)點(diǎn)時(shí),數(shù)據(jù)只存儲(chǔ)在其中2個(gè)節(jié)點(diǎn)上,如果4個(gè)節(jié)點(diǎn)都參與計(jì)算時(shí),是不是只有有數(shù)據(jù)的節(jié)點(diǎn)才在真正運(yùn)算,剩下倆個(gè)節(jié)點(diǎn)都在空轉(zhuǎn)劃水?還是集群會(huì)重新把數(shù)據(jù)平均傳輸?shù)?個(gè)節(jié)點(diǎn)上,大家再一起算?
2020-10-30
針對你說的這種場景,會(huì)出現(xiàn)這種結(jié)果:
有2個(gè)節(jié)點(diǎn)讀取本地節(jié)點(diǎn)中的數(shù)據(jù)進(jìn)行本地計(jì)算,另外2個(gè)節(jié)點(diǎn)上沒有數(shù)據(jù)的,則會(huì)跨節(jié)點(diǎn)拉取數(shù)據(jù)進(jìn)行計(jì)算。
默認(rèn)情況下會(huì)優(yōu)先讀取本節(jié)點(diǎn)的數(shù)據(jù),這是最優(yōu)的策略,如果由于各種原因無法滿足這種策略,會(huì)退而求其次,進(jìn)行跨節(jié)點(diǎn)數(shù)據(jù)傳輸