Spark - repartition()vs coalesce()根據(jù)Learning Spark的說法請(qǐng)記住,重新分區(qū)數(shù)據(jù)是一項(xiàng)相當(dāng)昂貴的操作。Spark還有一個(gè)優(yōu)化版本的repartition(),稱為coalesce(),它允許避免數(shù)據(jù)移動(dòng),但前提是你減少了RDD分區(qū)的數(shù)量。我得到的一個(gè)區(qū)別是,使用repartition()可以增加/減少分區(qū)數(shù)量,但是使用coalesce()時(shí),只能減少分區(qū)數(shù)量。如果分區(qū)分布在多臺(tái)機(jī)器上并運(yùn)行coalesce(),它如何避免數(shù)據(jù)移動(dòng)?
Spark - repartition()vs coalesce()
慕的地8271018
2019-07-25 19:37:29