1 回答

TA貢獻1836條經(jīng)驗 獲得超5個贊
在我看來,一個完整的大數(shù)據(jù)平臺應(yīng)該提供離線計算、即席查詢、實時計算、實時查詢這幾個方面的功能。
hadoop、spark、storm 無論哪一個,單獨不可能完成上面的所有功能。
hadoop+spark+hive是一個很不錯的選擇.hadoop的HDFS毋庸置疑是分布式文件系統(tǒng)的解決方案,解決存儲問題;hadoop mapreduce、hive、spark application、sparkSQL解決的是離線計算和即席查詢的問題;spark streaming解決的是實時計算問題;另外,還需要HBase或者Redis等NOSQL技術(shù)來解決實時查詢的問題;
除了這些,大數(shù)據(jù)平臺中必不可少的需要任務(wù)調(diào)度系統(tǒng)和數(shù)據(jù)交換工具;
任務(wù)調(diào)度系統(tǒng)解決所有大數(shù)據(jù)平臺中的任務(wù)調(diào)度與監(jiān)控;數(shù)據(jù)交換工具解決其他數(shù)據(jù)源與HDFS之間的數(shù)據(jù)傳輸,比如:數(shù)據(jù)庫到HDFS、HDFS到數(shù)據(jù)庫等等。
關(guān)于大數(shù)據(jù)平臺的架構(gòu)技術(shù)文章,可搜索"lxw的大數(shù)據(jù)田地",里面有很多。
- 1 回答
- 0 關(guān)注
- 695 瀏覽
添加回答
舉報