-
HDFS寫流程
客戶端向NameNode發(fā)起寫數(shù)據(jù)請(qǐng)求
分塊寫入DataNode節(jié)點(diǎn),DataNode自動(dòng)完成副本備份
DataNode向NameNode匯報(bào)存儲(chǔ)完成,NameNode通知客戶端
HDFS讀流程
客戶端向NameNode發(fā)起讀數(shù)據(jù)請(qǐng)求
NameNode找出距離最近的DataNode節(jié)點(diǎn)信息
客戶端從DataNode分塊下載文件
查看全部 -
HDFS分布式文件系統(tǒng):存儲(chǔ)是大數(shù)據(jù)技術(shù)的基礎(chǔ)
HDFS總結(jié)
普通的成百上千的機(jī)器
按TB甚至PB為單位的大量的數(shù)據(jù)
簡(jiǎn)單便捷的文件獲取
HDFS概念
數(shù)據(jù)塊:數(shù)據(jù)塊是抽象塊而非整個(gè)文件作為存儲(chǔ)單元,默認(rèn)大小為64M,一般設(shè)置為128M,備份X3
NameNode:管理文件系統(tǒng)的命名空間,存放文件元數(shù)據(jù),維護(hù)著文件系統(tǒng)的所有文件和目錄,文件與數(shù)據(jù)塊的映射,記錄每個(gè)文件中各個(gè)快所在數(shù)據(jù)節(jié)點(diǎn)的信息
DataNode:存儲(chǔ)并檢索數(shù)據(jù)塊,向NameNode更新所存儲(chǔ)塊的列表
HDFS優(yōu)點(diǎn):
適合大文件存儲(chǔ),支持TB、PB級(jí)的數(shù)據(jù)存儲(chǔ),并有副本策略
可以構(gòu)建在廉價(jià)的機(jī)器上,并有一定的容錯(cuò)和恢復(fù)機(jī)制
支持流式數(shù)據(jù)訪問(wèn),一次寫入,多次讀取最高效
HDFS缺點(diǎn):
不適合大量小文件存儲(chǔ)
不適合并發(fā)寫入,不支持文件隨機(jī)修改
不支持隨機(jī)讀等低延時(shí)的訪問(wèn)方式
查看全部 -
兩個(gè)思考問(wèn)題 :
????1.數(shù)據(jù)塊的大小設(shè)置為多少合適為什么?
???????hadoop數(shù)據(jù)塊的大小一般設(shè)置為128M,如果數(shù)據(jù)塊設(shè)置的太小,一般的文件也會(huì)被分割為多個(gè)數(shù)據(jù)塊,在訪問(wèn)的時(shí)候需要查找多個(gè)數(shù)據(jù)塊的地址,這樣的效率很低,而且如果數(shù)據(jù)塊設(shè)置太小的話,會(huì)消耗更多的NameNode的內(nèi)存;而如果數(shù)據(jù)塊設(shè)置過(guò)大的話,對(duì)于并行的支持不是太好,而且會(huì)涉及系統(tǒng)的其他問(wèn)題,比如系統(tǒng)重啟時(shí),需要重新加載數(shù)據(jù),數(shù)據(jù)塊越大,耗費(fèi)的時(shí)間越長(zhǎng)。???
????2.NameNode有哪些容錯(cuò)機(jī)制,如果NameNode掛掉了怎么辦?
?????? NameNode容錯(cuò)機(jī)制,目前的hadoop2可以為之為HA(高可用)集群,集群里面有兩個(gè)NameNode的節(jié)點(diǎn),一臺(tái)為主節(jié)點(diǎn),一臺(tái)為從節(jié)點(diǎn)(備用節(jié)點(diǎn)),兩者的數(shù)據(jù)時(shí)刻保持一致,當(dāng)主節(jié)點(diǎn)出現(xiàn)問(wèn)題時(shí),備用節(jié)點(diǎn)可以自動(dòng)切換,用戶基本感知不到,這樣就避免了NameNode的單點(diǎn)問(wèn)題。
HDFS寫流程:
? ? 寫流程:
1.客戶端向NameNode發(fā)起寫數(shù)據(jù)????2.分塊寫入DataNode節(jié)點(diǎn),DataNode自動(dòng)完成副本備份
????3.DataNode向NameNode匯報(bào)存儲(chǔ)完成,NameNode通知客戶端
? HDFS讀流程:
1.客戶端向NameNode發(fā)起讀數(shù)據(jù)的請(qǐng)求;? ?
?2.NameNode找出距離最近的DataNode節(jié)點(diǎn)信息返回給客戶端 ;
?3.客戶端從DataNode上面分塊的下載文件;查看全部 -
Hadoop 是一個(gè)開(kāi)源的大數(shù)據(jù)框架;也是是一個(gè)分布式計(jì)算的解決方案;
那么Hadoop+HDFS(分布式文件系統(tǒng))+MapReduce(分布式計(jì)算);
Hadoop 核心:HDFS 分布式文件系統(tǒng):存儲(chǔ)是大數(shù)據(jù)計(jì)算的基礎(chǔ),沒(méi)有這個(gè)做不了大數(shù)據(jù);
MapReduce(分布式計(jì)算):編程模型,分布式計(jì)算是大數(shù)據(jù)應(yīng)用的解決方案;
HDFS總結(jié):有很多特性支持大數(shù)據(jù)的存儲(chǔ),為了大量數(shù)據(jù)橫跨成百上千的機(jī)器,用數(shù)據(jù)跟本地調(diào)用一樣簡(jiǎn)單,HDFS自動(dòng)搞定;
1、普通的成百上千的機(jī)器;
2、按TB甚至PB為單位的大量數(shù)據(jù);
3、簡(jiǎn)單便捷的文件獲取;
概念:1、數(shù)據(jù)塊;數(shù)據(jù)塊是抽象概念的塊而非整個(gè)文件作為存儲(chǔ)單元;
塊默認(rèn)大小64M,一般設(shè)置128M,(副本策略)備份X3;比如存10M文件,那么這個(gè)文件獨(dú)占一個(gè)文件,如果300M文件,那么會(huì)占3份;這樣會(huì)簡(jiǎn)化存儲(chǔ)數(shù)據(jù)的設(shè)計(jì),提升數(shù)據(jù)的容錯(cuò)能力和擴(kuò)容性;;
2、NameNode;主 ,管理文件系統(tǒng)的命名空間和存放文件元數(shù)據(jù);維護(hù)著文件系統(tǒng)的所有文件和目錄,文件和數(shù)據(jù)庫(kù)的映射;
記錄每個(gè)文件各個(gè)塊所在數(shù)據(jù)節(jié)點(diǎn)的信息;
如果namenode掛了咋辦?百度
3、DataNode? 從的關(guān)系,一般一個(gè)namenode主,多個(gè)從;
datanode ,存儲(chǔ)并檢索數(shù)據(jù)塊,向namenode更新所存塊的列表;
HDFS優(yōu)點(diǎn):
1、適合大文件的存儲(chǔ),支持TB、PB級(jí)的數(shù)據(jù)存儲(chǔ),并有副本策略;
2、可以構(gòu)建在廉價(jià)的機(jī)器上,并有一定的容錯(cuò)和恢復(fù)機(jī)制;
3、支持流式數(shù)據(jù)訪問(wèn),一次寫入,多次讀取取最高效;
缺點(diǎn):
1、不適合大量小文件存儲(chǔ);
2、不適合并發(fā)寫入,不支持文件隨機(jī)修改,只能后續(xù)添加apd;
3、不支持隨機(jī)讀等低時(shí)延的訪問(wèn)方式;
問(wèn)題;1、數(shù)據(jù)塊的大小設(shè)置多少合適?為啥?
2、namenode有哪些容錯(cuò)機(jī)制,他如果掛掉咋辦?查看全部 -
HBase簡(jiǎn)介
查看全部 -
Hadoop生態(tài)
查看全部 -
Hadoop總結(jié)
查看全部 -
Hadoop
查看全部 -
Hadoop的基礎(chǔ)架構(gòu)
查看全部 -
Hadoop基礎(chǔ)架構(gòu)
查看全部 -
HDFS寫流程和讀流程
查看全部 -
Hadoop基礎(chǔ)與演練
大數(shù)據(jù)是一個(gè)概念也是一門技術(shù),是在以Hadoop為代表的大數(shù)據(jù)平臺(tái)框架上進(jìn)行各種數(shù)據(jù)分析的技術(shù)。
大數(shù)據(jù)包括了以Hadoop和Spark為代表的基礎(chǔ)大數(shù)據(jù)框架
還包括實(shí)時(shí)數(shù)據(jù)處理,離線數(shù)據(jù)處理;數(shù)據(jù)分析,數(shù)據(jù)挖掘和用機(jī)器算法進(jìn)行預(yù)測(cè)分析等技術(shù)
大數(shù)據(jù)的前景
PC時(shí)代->移動(dòng)互聯(lián)網(wǎng)->物聯(lián)網(wǎng)
PC->云計(jì)算->大數(shù)據(jù)
大數(shù)據(jù)肯定是一個(gè)好的方向,大數(shù)據(jù)的相關(guān)人才還是稀缺的,現(xiàn)在學(xué)大數(shù)據(jù)還不晚,堅(jiān)持地走下去就行了!
查看全部 -
mapreduce編程模型:
????
yarn 資源管理器:
????resourcemanager????applicationmaster
????nodemanager
查看全部 -
hadoop有主節(jié)點(diǎn)和一套備用節(jié)點(diǎn),主節(jié)點(diǎn)掛了就直接用備用節(jié)點(diǎn)。解決namenode的單點(diǎn)問(wèn)題。
hdfs 寫流程:
hdfs讀流程:
查看全部 -
hdfs的存儲(chǔ)單元為數(shù)據(jù)塊。
一個(gè)hdfs由1個(gè)Namenode和多個(gè)datanode組成。
namenode:
datanode:存儲(chǔ)檢索數(shù)據(jù)塊,向namenode更新數(shù)據(jù)列表。
查看全部 -
———————————————————
查看全部 -
hdfs總結(jié)
查看全部 -
hadoop核心
查看全部 -
什么是大數(shù)據(jù)
查看全部 -
問(wèn)題回顧:
數(shù)據(jù)塊的大小設(shè)置為多少比較合適?
一般設(shè)置為128MB,設(shè)置過(guò)小,訪問(wèn)時(shí)數(shù)據(jù)時(shí)效率不高,對(duì)NameNade的內(nèi)存消耗嚴(yán)重。數(shù)據(jù)塊設(shè)置過(guò)大,降低對(duì)并行的支持
會(huì)使數(shù)據(jù)重啟的時(shí)間延長(zhǎng)。
如果NameNode掛掉了怎么辦?
配用高可用集群ha存在兩個(gè)NameNode節(jié)點(diǎn),一個(gè)處于active請(qǐng)求狀態(tài),另一個(gè)處于standby備份狀態(tài),兩者數(shù)據(jù)時(shí)刻保持一致
查看全部 -
hadoop是什么?
1.開(kāi)源的大數(shù)據(jù)框架
2.分布式計(jì)算的解決方案
3.hadoop=HDFS(分布式文件系統(tǒng))+MapReduce(分布式計(jì)算)
hadoop的核心?
1.HDFS分布式文件系統(tǒng):存儲(chǔ)大數(shù)據(jù)技術(shù)的基礎(chǔ)
2.MapReduce編程模型:分布式計(jì)算提供處理大數(shù)據(jù)應(yīng)用的解決方
HDFS概念
1.數(shù)據(jù)塊
?????抽象的單個(gè)文件作為單元存儲(chǔ)單元,默認(rèn)大小為64MB,一般設(shè)置為128M,備份X3
2.NameNode
????????????????管理文件系統(tǒng)的命名空間,存放文件元數(shù)據(jù)
????????????????維護(hù)文件系統(tǒng)的所有文件和目錄,文件于數(shù)據(jù)塊的映射
????????????????記錄每個(gè)文件中各個(gè)塊所在數(shù)據(jù)節(jié)點(diǎn)的信息
? ? ? ? ?3.DataNode
????????????????? ?存儲(chǔ)并檢索數(shù)據(jù)塊
????????????????????向NameNode發(fā)送并更新所存儲(chǔ)的列表
HDFS的優(yōu)缺點(diǎn)
1.優(yōu)點(diǎn)
適合大文件,可以構(gòu)建在廉價(jià)的機(jī)器上,并有一定的容錯(cuò)和恢復(fù)機(jī)制,支持流式數(shù)據(jù)訪問(wèn),一次寫入,多次讀取最高效
? ? ? ? ?2.缺點(diǎn)
? ? ? ? 不適合小文件存儲(chǔ),不適合并發(fā)寫入,不支持隨機(jī)修改和隨機(jī)讀等低延時(shí)的訪問(wèn)方式
問(wèn)題1:如果NameNode掛掉了怎么辦?
將SecondaryNameNode中數(shù)據(jù)拷貝到namenode存儲(chǔ)數(shù)據(jù)的目錄
查看全部 -
大數(shù)據(jù)的定義
大數(shù)據(jù)是一個(gè)概念和一門技術(shù),以hadoop 為代表的大數(shù)據(jù)平臺(tái)框架上進(jìn)行各種數(shù)據(jù)分析的技術(shù) 包括以hadoop,spark為代表的基礎(chǔ)大數(shù)據(jù)框架還包括實(shí)時(shí)處理數(shù)據(jù),離線處理數(shù)據(jù);數(shù)據(jù)分析,數(shù)據(jù)挖掘和用機(jī)器算法進(jìn)行預(yù)測(cè)分析等技術(shù)
查看全部 -
MapReduce 原理
查看全部 -
HDFS 的讀流程
查看全部 -
HDFS 的寫流程
(1) 首先客戶端向NameNode發(fā)起寫數(shù)據(jù)請(qǐng)求,NameNode保存的各個(gè)DataNode狀態(tài),檢索的DataNode1、2、3有空間可以存儲(chǔ)
(2)客戶端將分塊兒數(shù)據(jù)寫入DataNode,DataNode完成自動(dòng)備份
(3)DataNode向NameNode匯報(bào)存儲(chǔ)完成,NameNode通知客戶端
查看全部
舉報(bào)