我有500G的數(shù)據(jù),分別存儲(chǔ)在機(jī)器A、B上,為了快速分析數(shù)據(jù),我使用A,B,C,D四臺(tái)機(jī)器做了一個(gè)hadoop集群。A是master。請(qǐng)問(wèn)我是否需要將這500G的數(shù)據(jù)先上傳到hadoop中?
1 回答

蕪湖不蕪
TA貢獻(xiàn)1796條經(jīng)驗(yàn) 獲得超7個(gè)贊
是必須把這500G上傳到你Hadoop的文件系統(tǒng)(HDFS)中
HDFS中,默認(rèn)是會(huì)存儲(chǔ)3份(為了數(shù)據(jù)高可用和就近訪問(wèn))的,也就是會(huì)在你的BCD三個(gè)節(jié)點(diǎn)中共占用1500G空間,你可以手工設(shè)置冗余的份數(shù)。你通過(guò)hdfs的命令只看到一個(gè)500G的文件,實(shí)際上它們被拆成64m大小的塊了(塊大小也可以設(shè)),每塊都有3份
最后,再次建議你找相關(guān)的文檔閱讀、實(shí)踐,反復(fù)鉆研了百思不得其解的問(wèn)題再來(lái)求助。你要做項(xiàng)目的,這點(diǎn)學(xué)習(xí)成本是應(yīng)該付出的。
你這一下就發(fā)了兩個(gè)這么入門(mén)級(jí)的問(wèn)題,雖然我都耐心回答了,但對(duì)你對(duì)我效率都太低了。
- 1 回答
- 0 關(guān)注
- 225 瀏覽
添加回答
舉報(bào)
0/150
提交
取消