首頁(yè) 猿問(wèn) 通過(guò)JDBC從RDBMS讀取時(shí)分區(qū)...

通過(guò)JDBC從RDBMS讀取時(shí)分區(qū)為spark

源碼

守著一只汪 2019-09-06 15:54:18

我在集群模式下運(yùn)行spark并通過(guò)JDBC從RDBMS讀取數(shù)據(jù)。根據(jù)Spark 文檔，這些分區(qū)參數(shù)描述了在從多個(gè)worker并行讀取時(shí)如何對(duì)表進(jìn)行分區(qū)：partitionColumnlowerBoundupperBoundnumPartitions這些是可選參數(shù)。如果我不指定這些，會(huì)發(fā)生什么：只有1名工人讀取整個(gè)數(shù)據(jù)？如果它仍然并行讀取，它如何分區(qū)數(shù)據(jù)？

查看完整描述

1 回答

largeQ

TA貢獻(xiàn)2039條經(jīng)驗(yàn) 獲得超8個(gè)贊

如果沒(méi)有指定{ partitionColumn，lowerBound，upperBound，numPartitions}或{ predicates}星火將使用一個(gè)執(zhí)行者，并創(chuàng)建一個(gè)非空分區(qū)。所有數(shù)據(jù)都將使用單個(gè)事務(wù)處理，并且讀取既不會(huì)分發(fā)也不會(huì)并行化。