Spark RDD到底是個(gè)什么東西
2 回答

慕容森
TA貢獻(xiàn)1853條經(jīng)驗(yàn) 獲得超18個(gè)贊
為了能解決程序員能在大規(guī)模的集群中以一種容錯(cuò)的方式進(jìn)行內(nèi)存計(jì)算這個(gè)問題,我們提出了RDDs的概念。當(dāng)前的很多框架對(duì)迭代式算法場(chǎng)景與交互性數(shù)據(jù)挖掘場(chǎng)景的處理性能非常差,這個(gè)是RDDs的提出的動(dòng)機(jī)。如果能將數(shù)據(jù)保存在內(nèi)存中,將會(huì)使的上面兩種場(chǎng)景的性能提高一個(gè)數(shù)量級(jí)。為了能達(dá)到高效的容錯(cuò),RDDs提供了一種受限制的共享內(nèi)存的方式,這種方式是基于粗粒度的轉(zhuǎn)換共享狀態(tài)而非細(xì)粒度的更新共享狀態(tài)。然而,我們分析表明RDDs可以表達(dá)出很多種類的計(jì)算,包括目前專門從事迭代任務(wù)的編程計(jì)算模型,比如Pregel,當(dāng)然也可以表達(dá)出目前模型表達(dá)不出的計(jì)算
- 2 回答
- 0 關(guān)注
- 1086 瀏覽
添加回答
舉報(bào)
0/150
提交
取消