我在集群模式下運(yùn)行spark并通過(guò)JDBC從RDBMS讀取數(shù)據(jù)。根據(jù)Spark 文檔,這些分區(qū)參數(shù)描述了在從多個(gè)worker并行讀取時(shí)如何對(duì)表進(jìn)行分區(qū):partitionColumnlowerBoundupperBoundnumPartitions這些是可選參數(shù)。如果我不指定這些,會(huì)發(fā)生什么:只有1名工人讀取整個(gè)數(shù)據(jù)?如果它仍然并行讀取,它如何分區(qū)數(shù)據(jù)?
1 回答

largeQ
TA貢獻(xiàn)2039條經(jīng)驗(yàn) 獲得超8個(gè)贊
如果沒(méi)有指定{ partitionColumn
,lowerBound
,upperBound
,numPartitions
}或{ predicates
}星火將使用一個(gè)執(zhí)行者,并創(chuàng)建一個(gè)非空分區(qū)。所有數(shù)據(jù)都將使用單個(gè)事務(wù)處理,并且讀取既不會(huì)分發(fā)也不會(huì)并行化。
- 1 回答
- 0 關(guān)注
- 467 瀏覽
添加回答
舉報(bào)
0/150
提交
取消