首頁猿問請教一下MPP 與...

請教一下MPP 與 Hadoop是什么關(guān)系？

Java 設(shè)計(jì)工具

犯罪嫌疑人X 2019-09-10 14:10:55

MPP 與 Hadoop是什么關(guān)系

查看完整描述

4 回答

RISEBY

TA貢獻(xiàn)1856條經(jīng)驗(yàn) 獲得超5個(gè)贊

二者處理數(shù)據(jù)的思路是一樣的, 分布式并行處理, 某種程度上也都能完成同樣的工作.
但mpp仍是關(guān)系型數(shù)據(jù)庫技術(shù), 能較好支持SQL, 使用更方便 (舉例：GreenPlum)
hadoop是開源平臺(tái), 本身不是數(shù)據(jù)庫, 但可處理非結(jié)構(gòu)化數(shù)據(jù), 這點(diǎn)關(guān)系數(shù)據(jù)庫很難做到.

反對回復(fù) 2019-09-14

動(dòng)漫人物

TA貢獻(xiàn)1815條經(jīng)驗(yàn) 獲得超10個(gè)贊

hive跟mpp的內(nèi)存管理方式不大一樣，mpp內(nèi)存管理比較精細(xì)，他主要的想法是在每個(gè)機(jī)器上放個(gè)數(shù)據(jù)庫，傳統(tǒng)數(shù)據(jù)庫的內(nèi)存管理比較復(fù)雜，主要是內(nèi)外存交互的東西，這樣的架構(gòu)決定了mpp在小數(shù)據(jù)量的時(shí)候，latency可以做的比較小，但是在大數(shù)據(jù)量的時(shí)候，throughput做不上去。
而hive的內(nèi)存管理非常粗放，他后來就是mapreduce的job，mr的job是沒有太多精細(xì)的內(nèi)存管理的，他就是拼了命地scan，完了頂多就是個(gè)spill，這樣的架構(gòu)導(dǎo)致throughput很大，但是latency很高，當(dāng)你集群規(guī)模很大的時(shí)候，你一般會(huì)追求很大的throughput，當(dāng)數(shù)據(jù)量很大的時(shí)候，如果你用mpp那種傳統(tǒng)的內(nèi)存管理的話，大批量的計(jì)算反而會(huì)慢，而且更加占資源，所以vertica這種一開始就考慮了列式存儲(chǔ)就是這個(gè)道理。

反對回復(fù) 2019-09-14

陪伴而非守候

TA貢獻(xiàn)1757條經(jīng)驗(yàn) 獲得超8個(gè)贊

　hive跟mpp的存儲(chǔ)模型不一樣，hive用的hdfs，而mpp需要自己做切分，自己做切分就帶來動(dòng)態(tài)調(diào)整的問題。
　　hdfs的擴(kuò)展是通過元數(shù)據(jù)來做的，他有中心節(jié)點(diǎn)用來存元數(shù)據(jù)，在加入新的節(jié)點(diǎn)的時(shí)候，只需要修改元數(shù)據(jù)就可以了，所以hdfs的擴(kuò)展能力是受到管理元數(shù)據(jù)那臺(tái)機(jī)器的性能限制的，一般來說可以到10k這個(gè)規(guī)模，再向上就不行了。
　　實(shí)測對比GreenPlum和Hive，GP比Hive性能高出至少一個(gè)數(shù)量級，但是大部分場景下，依然是秒級甚至分鐘級的延遲，距離具體通常意義的實(shí)時(shí)毫秒級，差距巨大。

反對回復(fù) 2019-09-14