4 回答

TA貢獻1856條經(jīng)驗 獲得超5個贊
二者處理數(shù)據(jù)的思路是一樣的, 分布式并行處理, 某種程度上也都能完成同樣的工作.
但mpp仍是關(guān)系型數(shù)據(jù)庫技術(shù), 能較好支持SQL, 使用更方便 (舉例:GreenPlum)
hadoop是開源平臺, 本身不是數(shù)據(jù)庫, 但可處理非結(jié)構(gòu)化數(shù)據(jù), 這點關(guān)系數(shù)據(jù)庫很難做到.

TA貢獻1815條經(jīng)驗 獲得超10個贊
hive跟mpp的內(nèi)存管理方式不大一樣,mpp內(nèi)存管理比較精細,他主要的想法是在每個機器上放個數(shù)據(jù)庫,傳統(tǒng)數(shù)據(jù)庫的內(nèi)存管理比較復雜,主要是內(nèi)外存交互的東西,這樣的架構(gòu)決定了mpp在小數(shù)據(jù)量的時候,latency可以做的比較小,但是在大數(shù)據(jù)量的時候,throughput做不上去。
而hive的內(nèi)存管理非常粗放,他后來就是mapreduce的job,mr的job是沒有太多精細的內(nèi)存管理的,他就是拼了命地scan,完了頂多就是個spill,這樣的架構(gòu)導致throughput很大,但是latency很高,當你集群規(guī)模很大的時候,你一般會追求很大的throughput,當數(shù)據(jù)量很大的時候,如果你用mpp那種傳統(tǒng)的內(nèi)存管理的話,大批量的計算反而會慢,而且更加占資源,所以vertica這種一開始就考慮了列式存儲就是這個道理。

TA貢獻1757條經(jīng)驗 獲得超8個贊
hive跟mpp的存儲模型不一樣,hive用的hdfs,而mpp需要自己做切分,自己做切分就帶來動態(tài)調(diào)整的問題。
hdfs的擴展是通過元數(shù)據(jù)來做的,他有中心節(jié)點用來存元數(shù)據(jù),在加入新的節(jié)點的時候,只需要修改元數(shù)據(jù)就可以了,所以hdfs的擴展能力是受到管理元數(shù)據(jù)那臺機器的性能限制的,一般來說可以到10k這個規(guī)模,再向上就不行了。
實測對比GreenPlum和Hive,GP比Hive性能高出至少一個數(shù)量級,但是大部分場景下,依然是秒級甚至分鐘級的延遲,距離具體通常意義的實時毫秒級,差距巨大。
添加回答
舉報