首頁(yè) 猿問(wèn) 為什么要使用Hadoop?

為什么要使用Hadoop?

Hadoop

侃侃爾雅 2019-02-14 15:11:09

為什么要使用Hadoop

查看完整描述

2 回答

湖上湖

TA貢獻(xiàn)2003條經(jīng)驗(yàn) 獲得超2個(gè)贊

感覺(jué)現(xiàn)在各個(gè)公司使用Hadoop的方式都不一樣，主要我覺(jué)得有兩種吧。
第一種是long running cluster形式，比如Yahoo，不要小看這個(gè)好像已經(jīng)沒(méi)什么存在感的公司，Yahoo可是Hadoop的元老之一。這種就是建立一個(gè)Data Center，然后有幾個(gè)上千Node的Hadoop Cluster一直在運(yùn)行。比較早期進(jìn)入Big Data領(lǐng)域的公司一般都在使用或者使用過(guò)這種方式。
另一種是只使用MapReduce類型。畢竟現(xiàn)在是Cloud時(shí)代，比如AWS的Elastic MapReduce。這種是把數(shù)據(jù)存在別的更便宜的地方，比如s3，自己的data center， sql database等等，需要分析數(shù)據(jù)的時(shí)候開啟一個(gè)Hadoop Cluster，Hive/Pig/Spark/Presto/Java分析完了就關(guān)掉。不用自己做Admin的工作，方便簡(jiǎn)潔。
所以個(gè)人如果要學(xué)Hadoop的話我也建議第二種，AWS有免費(fèi)試用時(shí)間（但是EMR并不免費(fèi)，所以不要建了幾千個(gè)Node一個(gè)月后發(fā)現(xiàn)破產(chǎn)了），可以在這上面學(xué)習(xí)。最重要的是你可以嘗試各種不同的配置對(duì)于任務(wù)的影響，比如不同的版本，不同的container size，memory大小等等，這對(duì)于學(xué)習(xí)Spark非常有幫助。
總的來(lái)說(shuō)Hadoop適合應(yīng)用于大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)分析的應(yīng)用，適合于服務(wù)器幾千臺(tái)到幾萬(wàn)臺(tái)的集群運(yùn)行，支持PB級(jí)的存儲(chǔ)容量。Hadoop典型應(yīng)用有：搜索、日志處理、推薦系統(tǒng)、數(shù)據(jù)分析、視頻圖像分析、數(shù)據(jù)保存等。

反對(duì) 回復(fù) 2019-03-02