首頁(yè) 猿問 Spark中parallelize...

Spark中parallelize函數(shù)和makeRDD函數(shù)的區(qū)別

Spark

拉莫斯之舞 2019-02-13 09:17:24

查看完整描述

1 回答

阿波羅的戰(zhàn)車

TA貢獻(xiàn)1862條經(jīng)驗(yàn) 獲得超6個(gè)贊

Spark主要提供了兩種函數(shù)：parallelize和makeRDD：
1）parallelize的聲明：
def parallelize[T: ClassTag](
seq: Seq[T],
numSlices: Int = defaultParallelism): RDD[T]

2）makeRDD的聲明：
def makeRDD[T: ClassTag](

seq: Seq[T],
numSlices: Int = defaultParallelism): RDD[T]
def makeRDD[T: ClassTag](seq: Seq[(T, Seq[String])]): RDD[T]

3）區(qū)別：

A）makeRDD函數(shù)比parallelize函數(shù)多提供了數(shù)據(jù)的位置信息。
B）兩者的返回值都是ParallelCollectionRDD，但parallelize函數(shù)可以自己指定分區(qū)的數(shù)量，而makeRDD函數(shù)固定為seq參數(shù)的size大小。