-
hadoop生態(tài)圈
查看全部 -
python程序使用MapReduce統(tǒng)計(jì)單詞數(shù)可供將來使用參考
查看全部 -
python操作HDFS代碼可參考,具體使用時(shí)需要看hdfs3的API文檔
查看全部 -
常用HDFS的Shell命令:
類似Linux系統(tǒng):ls、cat、mkdir、rm、chmod、chown等
HDFS文件交互:copyFromLocal、copyToLocal、get、put
查看全部 -
IPython 編輯器
Hadoop的map,reduce方法
查看全部 -
MapReduce編程模型 就是分而治之的方法論
Hadoop1.0 與 Hadoop2.0的區(qū)別
查看全部 -
HDFS SHELL?
查看全部 -
數(shù)據(jù)塊的大小設(shè)置為多少合適?為什么?
NameNode有哪些容錯(cuò)的機(jī)制,如果掛了,該怎么辦?
查看全部 -
grep命令查看全部
-
截圖....
查看全部 -
hadoop數(shù)據(jù)塊的大小一般設(shè)置為128M,如果數(shù)據(jù)塊設(shè)置的太小,一般的文件也會(huì)被分割為多個(gè)數(shù)據(jù)塊,在訪問的時(shí)候需要查找多個(gè)數(shù)據(jù)塊的地址,這樣的效率很低,而且如果數(shù)據(jù)塊設(shè)置太小的話,會(huì)消耗更多的NameNode的內(nèi)存;而如果數(shù)據(jù)塊設(shè)置過大的話,對于并行的支持不是太好,而且會(huì)涉及系統(tǒng)的其他問題,比如系統(tǒng)重啟時(shí),需要從新加載數(shù)據(jù),數(shù)據(jù)塊越大,耗費(fèi)的時(shí)間越長。
NameNode出現(xiàn)錯(cuò)誤怎么辦?其容錯(cuò)機(jī)制
2. NameNode容錯(cuò)機(jī)制,目前的hadoop2可以為之為HA(高可用)集群,集群里面有兩個(gè)NameNode的節(jié)點(diǎn),一臺為主節(jié)點(diǎn),一臺為從節(jié)點(diǎn),兩者的數(shù)據(jù)時(shí)刻保持一致,當(dāng)主節(jié)點(diǎn)出現(xiàn)問題時(shí),從節(jié)點(diǎn)可以自動(dòng)切換,用戶基本感知不到,這樣就避免了NameNode的單點(diǎn)問題。
查看全部 -
HDFS讀流程
查看全部 -
HDFS的寫流程
查看全部 -
?HDFS寫流程
通過客戶端Client寫入數(shù)據(jù)Data的流程:
(1)Client向NameNode發(fā)起寫入請求;
(2)NameNode查找自身存儲的關(guān)于三個(gè)DataNode的信息,并反饋給Client;
(3)Client根據(jù)反饋信息,將Data分為兩個(gè)數(shù)據(jù)塊1和2;
(4)Client根據(jù)反饋信息將數(shù)據(jù)塊1傳給DataNode1,DataNode1將數(shù)據(jù)塊1傳給DataNode2,DataNode2將數(shù)據(jù)塊1傳給 DataNode3,進(jìn)行保存;并將信息反饋給NameNode,之后namenode進(jìn)行數(shù)據(jù)塊2的依次分配。
(5)待所有流程都結(jié)束后,datanode會(huì)向namenode提交信息反饋,會(huì)client停止與namenode的寫操作。
查看全部 -
HDFS的優(yōu)點(diǎn)
(1)適合大文件存儲,支持TB、PB級的數(shù)據(jù)存儲,并有副本策略;
(2)可以構(gòu)建在廉價(jià)的機(jī)器上,并有一定的容錯(cuò)和恢復(fù)機(jī)制;
注:Hadoop2的容錯(cuò)機(jī)制,Hadoop可以配置成HA(高可用集群),包含兩個(gè)NameNode節(jié)點(diǎn),其中一個(gè)處于“active”狀態(tài)(主節(jié)點(diǎn)),另一個(gè)處于“standby”狀態(tài)(備用節(jié)點(diǎn))
查看全部
舉報(bào)