我正在使用排序基準(zhǔn)測試對Spark進(jìn)行簡單的擴展測試 - 從1核,最多8核。我注意到8個核心比1核心慢。//run spark using 1 corespark-submit --master local[1] --class john.sort sort.jar data_800MB.txt data_800MB_output//run spark using 8 coresspark-submit --master local[8] --class john.sort sort.jar data_800MB.txt data_800MB_output 每種情況下的輸入和輸出目錄都是HDFS。1核:80秒8個核心:160秒我希望8核性能有x倍的加速。
2 回答

慕容森
TA貢獻(xiàn)1853條經(jīng)驗 獲得超18個贊
我想添加這些信息:由于Spark會嘗試拆分文件,我們最終會遇到以下情況之一:要么Spark會啟動多個線程來讀取同一個文件,同時通過尋求I / O處罰跨輸入文件,而不是線性讀取?;蛘?,Spark仍將大量讀取文件,然后將其傳播到同時工作中,并產(chǎn)生本地隨機播放,這也會降低性能。再加上排序所需的shuffle,性能明顯下降
- 2 回答
- 0 關(guān)注
- 863 瀏覽
添加回答
舉報
0/150
提交
取消