1 回答

TA貢獻(xiàn)1827條經(jīng)驗 獲得超4個贊
1、HadoopHadoop 采用 Map Reduce 分布式計算框架,根據(jù) GFS開發(fā)了 HDFS 分布式文件系統(tǒng),根據(jù) Big Table 開發(fā)了 HBase數(shù)據(jù)存儲系統(tǒng)。Hadoop 的開源特性使其成為分布式計算系統(tǒng)的事實上的國際標(biāo)準(zhǔn)。Yahoo,F(xiàn)acebook,Amazon 以及國內(nèi)的百度,阿里巴巴等眾多互聯(lián)網(wǎng)公司都以 Hadoop 為基礎(chǔ)搭建自己的分布。
2、Spark
Spark 是在 Hadoop 的基礎(chǔ)上進(jìn)行了一些架構(gòu)上的改良。Spark 與Hadoop 最大的不同點在于,Hadoop 使用硬盤來存儲數(shù)據(jù),而Spark 使用內(nèi)存來存儲數(shù)據(jù),因此 Spark 可以提供超過 Ha?doop 100 倍的運算速度。由于內(nèi)存斷電后會丟失數(shù)據(jù),Spark不能用于處理需要長期保存的數(shù)據(jù)。
3、 Storm
Storm 是 Twitter 主推的分布式計算系統(tǒng)。它在Hadoop的基礎(chǔ)上提供了實時運算的特性,可以實時的處理大數(shù)據(jù)流。不同于Hadoop和Spark,Storm不進(jìn)行數(shù)據(jù)的收集和存儲工作,它直接通過網(wǎng)絡(luò)實時的接受數(shù)據(jù)并且實時的處理數(shù)據(jù),然后直接通過網(wǎng)絡(luò)實時的傳回結(jié)果。
4、Samza
Samza 是由 Linked In 開源的一項技術(shù),是一個分布式流處理框架,專用于實時數(shù)據(jù)的處理,非常像Twitter的流處理系統(tǒng)Storm。不同的是Sam?za 基于 Hadoop,而且使用了 Linked In 自家的 Kafka 分布式消息系統(tǒng)。
Samza 非常適用于實時流數(shù)據(jù)處理的業(yè)務(wù),如數(shù)據(jù)跟蹤、日志服務(wù)、實時服務(wù)等應(yīng)用,它能夠幫助開發(fā)者進(jìn)行高速消息處理,同時還具有良好的容錯能力。
- 1 回答
- 0 關(guān)注
- 1637 瀏覽
添加回答
舉報