Spark RDD到底是個什么東西
2 回答

慕容森
TA貢獻1853條經(jīng)驗 獲得超18個贊
為了能解決程序員能在大規(guī)模的集群中以一種容錯的方式進行內存計算這個問題,我們提出了RDDs的概念。當前的很多框架對迭代式算法場景與交互性數(shù)據(jù)挖掘場景的處理性能非常差,這個是RDDs的提出的動機。如果能將數(shù)據(jù)保存在內存中,將會使的上面兩種場景的性能提高一個數(shù)量級。為了能達到高效的容錯,RDDs提供了一種受限制的共享內存的方式,這種方式是基于粗粒度的轉換共享狀態(tài)而非細粒度的更新共享狀態(tài)。然而,我們分析表明RDDs可以表達出很多種類的計算,包括目前專門從事迭代任務的編程計算模型,比如Pregel,當然也可以表達出目前模型表達不出的計算
- 2 回答
- 0 關注
- 1098 瀏覽
添加回答
舉報
0/150
提交
取消