-
shell命令操作HDFS:
???? 通過shell命令對HDFS進(jìn)行操作:與linux操作文件類似
???? 通過python程序?qū)DFS進(jìn)行操作
常用HDFS Shell命令:
????1.類linux系統(tǒng):ls、cat、mkdir、rm、chmod、chown等
????2.HDFS文件交互:copyFromlocal、copyTplocal、get、put
????????
????
查看全部 -
兩個思考問題 :
??? 1.數(shù)據(jù)塊的大小設(shè)置為多少合適為什么?
???????hadoop數(shù)據(jù)塊的大小一般設(shè)置為128M,如果數(shù)據(jù)塊設(shè)置的太小,一般的文件也會被分割為多個數(shù)據(jù)塊,在訪問的時候需要查找多個數(shù)據(jù)塊的地址,這樣的效率很低,而且如果數(shù)據(jù)塊設(shè)置太小的話,會消耗更多的NameNode的內(nèi)存;而如果數(shù)據(jù)塊設(shè)置過大的話,對于并行的支持不是太好,而且會涉及系統(tǒng)的其他問題,比如系統(tǒng)重啟時,需要從新加載數(shù)據(jù),數(shù)據(jù)塊越大,耗費(fèi)的時間越長。 ??
????2.NameNode有哪些容錯機(jī)制,如果NameNode掛掉了怎么辦?
?????? NameNode容錯機(jī)制,目前的hadoop2可以為之為HA(高可用)集群,集群里面有兩個NameNode的節(jié)點(diǎn),一臺為主節(jié)點(diǎn),一臺為從節(jié)點(diǎn),兩者的數(shù)據(jù)時刻保持一致,當(dāng)主節(jié)點(diǎn)出現(xiàn)問題時,從節(jié)點(diǎn)可以自動切換,用戶基本感知不到,這樣就避免了NameNode的單點(diǎn)問題。
HDFS寫流程:
????1.客戶端向NameNode發(fā)起寫數(shù)據(jù)
????2.分塊寫入DataNode節(jié)點(diǎn),DataNode自動完成副本備份
????3.DataNode向NameNode匯報存儲完成,NameNode通知客戶端
HDFS讀流程:????????????
????1.客戶端向NameNode發(fā)起讀數(shù)據(jù)的請求
????2.NameNode找出最近的DataNode節(jié)點(diǎn)信息返回給客戶端
????3.客戶端從DataNode分塊下載文件
查看全部 -
Hadoop是什么:
????1.Hadoop是一個開源框架
????2.Hadoop是一個分布式計算的解決方案
????3.Hadoop=HDFS(分布式文件系統(tǒng))+MapReduce(分布式計算)
Hadoop的核心:
????1.HDFS分布式文件系統(tǒng):存儲是大數(shù)據(jù)技術(shù)的基礎(chǔ)
????2.MapReduce編程模型:分布式 計算是大數(shù)據(jù)應(yīng)用的解決方案
HDFS概念:
????1.數(shù)據(jù)塊
????????????????數(shù)據(jù)塊是抽象塊而非整個文件作為存儲單元
????????????????默認(rèn)大小為64MB,一般設(shè)置為128M,備份X3
????2.NameNode
??????????????????????? 管理文件系統(tǒng)的命名空間,存放文件元數(shù)據(jù)
????????????????????????維系著文件系統(tǒng)的所有文件和目錄,文件與數(shù)據(jù)塊的映射
????????????????????????記錄每個文件中各個塊所在數(shù)據(jù)節(jié)點(diǎn)的信息????
????3.DataNode
????????????????????????存儲并檢索數(shù)據(jù)塊
????????????????????????向NameNode更新所存儲塊的列表
HDFS優(yōu)點(diǎn):
???? 1.適合大文件存儲,支持TB,PB級的數(shù)據(jù)存儲,并有副本策略
???? 2.可以構(gòu)建在廉價的機(jī)器上,并有一定的容錯和恢復(fù)機(jī)制
???? 3.支持流失數(shù)據(jù)訪問,一次寫入,多次讀取最高效
HDFS缺點(diǎn):
???? 1.不適合大量小文件的存儲
???? 2.不適合并發(fā)的寫入,不支持文件隨機(jī)修改
???? 3.不支持隨機(jī)讀等低延時的訪問方式
兩個思考問題 :
??? 1.數(shù)據(jù)塊的大小設(shè)置為多少合適為什么?
????2.NameNode有哪些容錯機(jī)制,如果?????????? NameNode掛掉了怎么辦?
查看全部 -
10.30,第二遍學(xué)習(xí)開始查看全部
-
大數(shù)據(jù)是一個概念也是一門技術(shù),是在以Hadoop為代表的大數(shù)據(jù)平臺框架上進(jìn)行各種數(shù)據(jù)分析的技術(shù)。
大數(shù)據(jù)包括了以Hadoop和Spark為代表的基礎(chǔ)大數(shù)據(jù)框架。
還包括實(shí)時數(shù)據(jù)處理,離線數(shù)據(jù)處理;數(shù)據(jù)分析,數(shù)據(jù)挖掘和用機(jī)器算法進(jìn)行預(yù)測分析等技術(shù)。
查看全部 -
HDFS寫流程
客戶端向NameNode發(fā)起寫數(shù)據(jù)請求。
分塊寫入DataNode節(jié)點(diǎn),DataNode自動完成副本備份。
DataNode向NameNode匯報存儲完成,NameNode通知客戶端。
HDFS讀流程
????1.客戶端向NameNode發(fā)起讀數(shù)據(jù)請求。
????2.NameNode找出距離最近的DataNode節(jié)點(diǎn)信息。
????3.客戶端從DataNode分塊下載文件。
查看全部 -
Hadoop是什么?
Hadoop是一個開源的大數(shù)據(jù)框架。
hadoop是一個分布式計算的解決方案。
Hadoop = HDFS(分布式文件系統(tǒng))+ MapReduce(分布式計算)。
Hadoop核心
????1.HDFS分布式文件系統(tǒng):存儲是大數(shù)據(jù)技術(shù)的基礎(chǔ)。
????2.MapReduce編程模型:分布式計算是大數(shù)據(jù)應(yīng)用的解決方案。
Hadoop基礎(chǔ)架構(gòu)
????HDFS概念
????????1.數(shù)據(jù)塊
????????2.NameNode(主)
????????????1)管理文件系統(tǒng)的命名空間,存放文件元數(shù)據(jù)。
????????????2)維護(hù)著文件系統(tǒng)的所有文件和目錄,文件與數(shù)據(jù)塊的映射。
????????????3)記錄每個文件中各個塊所在數(shù)據(jù)節(jié)點(diǎn)的信息。
????????3.DataNode(從)
????????????1)存儲并檢索數(shù)據(jù)塊
????????????2)向NameNode更新所存儲塊的列表。
????HDFS的優(yōu)點(diǎn)
????????1.適合大文件存儲,支持TB、PB級的數(shù)據(jù)存儲,并有副本策略。
????????2.可以構(gòu)建在廉價的機(jī)器上,并且有一定的容錯和恢復(fù)機(jī)制。
????????3.支持流式數(shù)據(jù)訪問,一次寫入,多次讀取最高效。
????HDFS缺點(diǎn)
????????1.不適合大量小文件存儲。
????????2.不適合并發(fā)寫入,不支持文件隨機(jī)修改。
????????3.不支持隨機(jī)讀等低延時的訪問方式。
????? ?
????
查看全部 -
大數(shù)據(jù)是一個概念也是一門技術(shù),是在以Hadoop為代表的大數(shù)據(jù)平臺框架上進(jìn)行各種數(shù)據(jù)分析的技術(shù)。
大數(shù)據(jù)包括了以Hadoop和spark為代表的基礎(chǔ)大數(shù)據(jù)框架。
還包括實(shí)時數(shù)據(jù)處理,離線數(shù)據(jù)分析;數(shù)據(jù)分析,數(shù)據(jù)挖掘和用機(jī)器算法進(jìn)行預(yù)測分析等技術(shù)。
查看全部 -
22222
查看全部 -
11111
查看全部 -
HDFS常用shell命令
查看全部 -
HDFS缺點(diǎn)
查看全部 -
DataNode
查看全部 -
namenode
查看全部 -
HDFS概念
查看全部
舉報