首頁猿問為什么 Storm 比...

為什么 Storm 比 Hadoop 快？是由哪幾個(gè)方面決定的

Hadoop

呼啦一陣風(fēng) 2018-10-28 00:00:26

查看完整描述

1 回答

千巷貓影

TA貢獻(xiàn)1829條經(jīng)驗(yàn) 獲得超7個(gè)贊

　“快”這個(gè)詞是不明確的，專業(yè)屬于點(diǎn)有兩個(gè)層面：
　　1. 延時(shí) ，指數(shù)據(jù)從產(chǎn)生到運(yùn)算產(chǎn)生結(jié)果的時(shí)間，題主的“快”應(yīng)該主要指這個(gè)。
　　2. 吞吐，指系統(tǒng)單位時(shí)間處理的數(shù)據(jù)量。
　　首先明確一點(diǎn)，在消耗資源相同的情況下，一般來說storm的延時(shí)低于mapreduce。但是吞吐也低于mapreduce。我再補(bǔ)充一下。storm是典型的流計(jì)算系統(tǒng)，mapreduce是典型的批處理系統(tǒng)。下面對(duì)流計(jì)算和批處理系統(tǒng)流程
　　真?zhèn)€數(shù)據(jù)處理流程來說大致可以分三個(gè)階段：
　　1. 數(shù)據(jù)采集與準(zhǔn)備
　　2. 數(shù)據(jù)計(jì)算（涉及計(jì)算中的中間存儲(chǔ)），題主中的“那些方面決定”應(yīng)該主要是指這個(gè)階段處理方式。
　　3. 數(shù)據(jù)結(jié)果展現(xiàn)（反饋）
　　1）數(shù)據(jù)采集階段，目前典型的處理處理策略：數(shù)據(jù)的產(chǎn)生系統(tǒng)一般出自頁面打點(diǎn)和解析DB的log，流計(jì)算將數(shù)據(jù)采集中消息隊(duì)列（比如kafaka,metaQ,timetunle）等。批處理系統(tǒng)一般將數(shù)據(jù)采集進(jìn)分布式文件系統(tǒng)（比如HDFS），當(dāng)然也有使用消息隊(duì)列的。我們暫且把消息隊(duì)列和文件系統(tǒng)稱為預(yù)處理存儲(chǔ)。二者在延時(shí)和吞吐上沒太大區(qū)別，接下來從這個(gè)預(yù)處理存儲(chǔ)進(jìn)入到數(shù)據(jù)計(jì)算階段有很大的區(qū)別，流計(jì)算一般在實(shí)時(shí)的讀取消息隊(duì)列進(jìn)入流計(jì)算系統(tǒng)（storm）的數(shù)據(jù)進(jìn)行運(yùn)算，批處理一系統(tǒng)一般會(huì)攢一大批后批量導(dǎo)入到計(jì)算系統(tǒng)（hadoop），這里就有了延時(shí)的區(qū)別。
　　2）數(shù)據(jù)計(jì)算階段，流計(jì)算系統(tǒng)（storm）的延時(shí)低主要有一下幾個(gè)方面（針對(duì)題主的問題）
　　A： storm 進(jìn)程是常駐的，有數(shù)據(jù)就可以進(jìn)行實(shí)時(shí)的處理