2 回答

TA貢獻2003條經(jīng)驗 獲得超2個贊
感覺現(xiàn)在各個公司使用Hadoop的方式都不一樣,主要我覺得有兩種吧。
第一種是long running cluster形式,比如Yahoo,不要小看這個好像已經(jīng)沒什么存在感的公司,Yahoo可是Hadoop的元老之一。這種就是建立一個Data Center,然后有幾個上千Node的Hadoop Cluster一直在運行。比較早期進入Big Data領(lǐng)域的公司一般都在使用或者使用過這種方式。
另一種是只使用MapReduce類型。畢竟現(xiàn)在是Cloud時代,比如AWS的Elastic MapReduce。這種是把數(shù)據(jù)存在別的更便宜的地方,比如s3,自己的data center, sql database等等,需要分析數(shù)據(jù)的時候開啟一個Hadoop Cluster,Hive/Pig/Spark/Presto/Java分析完了就關(guān)掉。不用自己做Admin的工作,方便簡潔。
所以個人如果要學Hadoop的話我也建議第二種,AWS有免費試用時間(但是EMR并不免費,所以不要建了幾千個Node一個月后發(fā)現(xiàn)破產(chǎn)了),可以在這上面學習。最重要的是你可以嘗試各種不同的配置對于任務(wù)的影響,比如不同的版本,不同的container size,memory大小等等,這對于學習Spark非常有幫助。
總的來說Hadoop適合應(yīng)用于大數(shù)據(jù)存儲和大數(shù)據(jù)分析的應(yīng)用,適合于服務(wù)器幾千臺到幾萬臺的集群運行,支持PB級的存儲容量。Hadoop典型應(yīng)用有:搜索、日志處理、推薦系統(tǒng)、數(shù)據(jù)分析、視頻圖像分析、數(shù)據(jù)保存等。
- 2 回答
- 0 關(guān)注
- 1042 瀏覽
添加回答
舉報