-
Collect()遍歷整個(gè)RDD 向drive program返回RDD的內(nèi)容 需要單機(jī)內(nèi)存能夠容納下(因?yàn)橐截惤odriver,一般測試使用),大數(shù)據(jù)的時(shí)候,使用saveAsTextFile() action保存文件中去。 raduce() 接收一個(gè)函數(shù),作用在RDD兩個(gè)類型相同的元素上,返回新元素??梢詫?shí)現(xiàn)RDD中元素的累加,計(jì)數(shù),和其他類型的聚集操作。val sum=rdd.reduce((x,y)=>x+y)。 top()根據(jù)RDD中的數(shù)據(jù)的比較器 take(n) 返回RDD的n個(gè)元素(同時(shí)嘗試訪問最少的partitions)返回結(jié)果是無序的,一般測試使用。 foreach()計(jì)算RDD中的每個(gè)元素,但不返回到本地。可以配合println()友好的打印出數(shù)據(jù)。查看全部
-
Transformat類型函數(shù)查看全部
-
filter函數(shù)查看全部
-
map函數(shù)查看全部
-
spark-shell的使用查看全部
-
比 較查看全部
-
combineByKey()查看全部
-
spark運(yùn)行程序查看全部
-
三種集群管理調(diào)度器 hadoop YARN (常用) Apache Mesos spark Cluster Managers查看全部
-
spark組件查看全部
-
spark特點(diǎn) 批處理=hadoop 迭代計(jì)算=其它?? 交互查詢=Hive 流處理=storm查看全部
-
Spark組件查看全部
-
rdds查看全部
-
啟動(dòng)集群查看全部
-
項(xiàng)目版本查看全部
舉報(bào)
0/150
提交
取消