4 回答

TA貢獻(xiàn)1856條經(jīng)驗(yàn) 獲得超5個(gè)贊
二者處理數(shù)據(jù)的思路是一樣的, 分布式并行處理, 某種程度上也都能完成同樣的工作.
但mpp仍是關(guān)系型數(shù)據(jù)庫技術(shù), 能較好支持SQL, 使用更方便 (舉例:GreenPlum)
hadoop是開源平臺(tái), 本身不是數(shù)據(jù)庫, 但可處理非結(jié)構(gòu)化數(shù)據(jù), 這點(diǎn)關(guān)系數(shù)據(jù)庫很難做到.

TA貢獻(xiàn)1815條經(jīng)驗(yàn) 獲得超10個(gè)贊
hive跟mpp的內(nèi)存管理方式不大一樣,mpp內(nèi)存管理比較精細(xì),他主要的想法是在每個(gè)機(jī)器上放個(gè)數(shù)據(jù)庫,傳統(tǒng)數(shù)據(jù)庫的內(nèi)存管理比較復(fù)雜,主要是內(nèi)外存交互的東西,這樣的架構(gòu)決定了mpp在小數(shù)據(jù)量的時(shí)候,latency可以做的比較小,但是在大數(shù)據(jù)量的時(shí)候,throughput做不上去。
而hive的內(nèi)存管理非常粗放,他后來就是mapreduce的job,mr的job是沒有太多精細(xì)的內(nèi)存管理的,他就是拼了命地scan,完了頂多就是個(gè)spill,這樣的架構(gòu)導(dǎo)致throughput很大,但是latency很高,當(dāng)你集群規(guī)模很大的時(shí)候,你一般會(huì)追求很大的throughput,當(dāng)數(shù)據(jù)量很大的時(shí)候,如果你用mpp那種傳統(tǒng)的內(nèi)存管理的話,大批量的計(jì)算反而會(huì)慢,而且更加占資源,所以vertica這種一開始就考慮了列式存儲(chǔ)就是這個(gè)道理。

TA貢獻(xiàn)1757條經(jīng)驗(yàn) 獲得超8個(gè)贊
hive跟mpp的存儲(chǔ)模型不一樣,hive用的hdfs,而mpp需要自己做切分,自己做切分就帶來動(dòng)態(tài)調(diào)整的問題。
hdfs的擴(kuò)展是通過元數(shù)據(jù)來做的,他有中心節(jié)點(diǎn)用來存元數(shù)據(jù),在加入新的節(jié)點(diǎn)的時(shí)候,只需要修改元數(shù)據(jù)就可以了,所以hdfs的擴(kuò)展能力是受到管理元數(shù)據(jù)那臺(tái)機(jī)器的性能限制的,一般來說可以到10k這個(gè)規(guī)模,再向上就不行了。
實(shí)測對比GreenPlum和Hive,GP比Hive性能高出至少一個(gè)數(shù)量級,但是大部分場景下,依然是秒級甚至分鐘級的延遲,距離具體通常意義的實(shí)時(shí)毫秒級,差距巨大。
添加回答
舉報(bào)