-
take(n):
隨機(jī)取n個數(shù)
查看全部 -
collect()
查看全部 -
:222222
查看全部 -
rdd? action:
查看全部 -
后續(xù)課程:
Spark架構(gòu)
Spark運(yùn)行過程
Spark程序部署
查看全部 -
combineByKey():
(createCombiner, mergeValue, mergeCombiners, partitioner)
最常用的基于key的聚合函數(shù),返回的類型可以與輸入類型不一樣。
許多基于key的聚合函數(shù)都用到了它,像groupByKey()
遍歷partition中的元素,元素的key,要么之前見過的,要么不是。
如果是新元素,使用我們提供的createCombiner()函數(shù)
如果是這個partition中已經(jīng)存在的key,就會使用mergeValue()函數(shù)
合并每個partition的結(jié)果的時候,使用mergeCombiners()函數(shù)
查看全部 -
val rdd2 = rdd.map(line=>(line.split(" ")(0), line))
查看全部 -
RDDs的血統(tǒng)關(guān)系圖
延遲計算
RDD.persist()
查看全部 -
Action介紹:
在RDD上計算出來一個結(jié)果。
把結(jié)果返回給driver program或保存在文件系統(tǒng),count(),save
rdd.reduce((x,y)=>x+y)
查看全部 -
集合運(yùn)算
RDDs支持?jǐn)?shù)學(xué)集合的計算,例如并集、交集等
val rdd_distinct = rdd1.distinct()
val rdd_union = rdd1.union(rdd2)
val rdd_inter = rdd1.intersection(rdd2)
val rdd_sub = rdd1.subtract(rdd2)
查看全部 -
Transformations介紹:
Transformations(轉(zhuǎn)換)
從之前的RDD構(gòu)建一個新的RDD,像map()和filter()
逐元素Transformations:
map()接收函數(shù),把函數(shù)應(yīng)用到RDD的每一個元素,返回新RDD
filter()接收函數(shù),返回只包含滿足filter()函數(shù)的元素的新RDD
flatMap(),對每個輸入元素,輸出多個輸出元素。flat壓扁的意思,將RDD中元素壓扁后返回一個新的RDD
val lines = inputs.flatMap(line=>line.split(" "))
lines.foreach(println)
查看全部 -
?
Driver Program
SparkContext
RDDs
查看全部 -
WordCount程序開發(fā)
查看全部 -
默認(rèn)安裝選項會自動配置環(huán)境變量。
Spark 1.6.2 -- Scala 2.10?
Spark 2.0.0 -- Scala 2.11
IntelliJ IDEA常用的設(shè)置:
主題和顏色
編輯器界面字體設(shè)置
光標(biāo)所在行背景顏色
查看全部 -
Spark下載,安裝;
Spark Shell操作
查看全部
舉報