1 回答

TA貢獻1777條經(jīng)驗 獲得超10個贊
本人為大數(shù)據(jù)技術(shù)員,可以分享一些心得體驗給題主:
其實題主需要搞清楚以下幾個問題,搞清楚了,其實問題的答案也就有了:
1、是從個人學(xué)習(xí)成長的角度想搭建平臺自學(xué)?還是現(xiàn)在的公司需要大數(shù)據(jù)技術(shù)進行分析?——如果是從個人學(xué)習(xí)成長的角度,建議直接按照Hadoop或者Spark的官網(wǎng)教程安裝即可,建議看官網(wǎng)(英文),在大數(shù)據(jù)技術(shù)領(lǐng)域,英語的掌握是非常重要的,因為涉及到組件選型、日后的安裝、部署、運維,所有的任務(wù)運行信息、報錯信息都是英文的,包括遇到問題的解答,所以還是非常重要的。如果是公司需要進行大數(shù)據(jù)分析,那么還要研究以下幾個問題:為什么需要搭建大數(shù)據(jù)分析平臺?要解決什么業(yè)務(wù)問題?需要什么樣的分析?數(shù)據(jù)量有多少?是否有實時分析的需求?是否有BI報表的需求?——這里舉一個典型的場景:公司之前采用Oracle或MySQL搭建的業(yè)務(wù)數(shù)據(jù)庫,而且有簡單的數(shù)據(jù)分析,或者可能采購了BI系統(tǒng),就是直接用業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫進行支持的,現(xiàn)在隨著數(shù)據(jù)量越來越大,那么就需要采用大數(shù)據(jù)技術(shù)進行擴容。
搞清楚需求之后,按照以下的步驟進行:
1、整體方案設(shè)計;整體方案設(shè)計時需要考慮的因素:數(shù)據(jù)量有多少:幾百GB?幾十TB?數(shù)據(jù)存儲在哪里:存儲在MySQL中?Oracle中?或其他數(shù)據(jù)庫中?數(shù)據(jù)如何從現(xiàn)在的存儲系統(tǒng)進入到大數(shù)據(jù)平臺中?如何將結(jié)果數(shù)據(jù)寫出到其他存儲系統(tǒng)中?分析主題是什么:只有幾個簡單指標(biāo)?還是說有很多統(tǒng)計指標(biāo),需要專門的人員去梳理,分組,并進行產(chǎn)品設(shè)計;是否需要搭建整體數(shù)倉?是否需要BI報表:業(yè)務(wù)人員有無操作BI的能力,或團隊組成比較簡單,不需要前后端人員投入,使用BI比較方便;是否需要實時計算?
2、組件選型;架構(gòu)設(shè)計完成后就需要組件選型了,這時候最好是比較資深的架構(gòu)師參與設(shè)計,選型包括:離線計算引擎:Hadoop、Spark、Tez……實時計算引擎:Storm、Flink、Samza、Spark Streaming……BI軟件:Tableau、QlikView、帆軟……
3、安裝部署;選型完成后,就可以進行安裝部署了,這部分其實是最簡單的,直接按照每個組件的部署要求安裝即可。
4、另一種選擇:采用商用軟件如果是企業(yè)需要搭建大數(shù)據(jù)平臺,那么還有一種選擇是直接采用商用的數(shù)據(jù)平臺。市面上有很多成熟的商用大數(shù)據(jù)平臺,Cloudera、星環(huán)、華為、亞信等等,都有對應(yīng)的產(chǎn)品線,業(yè)內(nèi)數(shù)據(jù)大咖袋鼠云就有一款非常優(yōu)秀的大數(shù)據(jù)平臺產(chǎn)品:數(shù)棧。主要有以下幾個特點:
1.一站式。一站式數(shù)據(jù)開發(fā)產(chǎn)品體系,滿足企業(yè)建設(shè)數(shù)據(jù)中臺過程中的多樣復(fù)雜需求。
2.兼容性強。支持對接多種計算引擎,使更多企業(yè)“半路上車”。
3.開箱即用?;赪eb的圖形化操作界面,開箱即用,快速上手。
4.性價比高。滿足中小企業(yè)數(shù)據(jù)中臺建設(shè)需求,降低企業(yè)投入成本。
- 1 回答
- 0 關(guān)注
- 793 瀏覽
添加回答
舉報