-
hadoop的組成
查看全部 -
hadoop的應用情況
查看全部 -
hadoop的功能和優(yōu)勢:
Hadoop是什么:是一個開源的、分布式存儲和分布式計算平臺;
兩個核心組件:
????1.HDFS,分布式文件系統(tǒng),存儲海量數(shù)據(jù)
????2.MapReduce,并行處理框架,實現(xiàn)任務分解和調(diào)度
Hadoopk可以做什么?
????搭建大型數(shù)據(jù)倉庫,PB級數(shù)據(jù)的存儲、處理、分析、統(tǒng)計等業(yè)務。
hadoop的優(yōu)勢:
????1.高擴展,理論上無限擴展
????2.低成本
????3.成熟的生態(tài)圈
查看全部 -
google大數(shù)據(jù)技術:mapreduce,BigTable,GFS;
革命性的變革1:成本降低
變革2:軟件容錯,通過軟件保證可靠性
變革3:簡化了分布式并行計算,無需控制節(jié)點同步和數(shù)據(jù)交換
hadoop:模仿google大數(shù)據(jù)技術的開源實現(xiàn)
查看全部 -
JobTracker的作用:
作業(yè)調(diào)度
分配任務、監(jiān)控任務執(zhí)行進度
監(jiān)控TaskTracker的狀態(tài)
TaskTracker的作用:
執(zhí)行任務
mapreduce容錯機制:
1、重復執(zhí)行,因為job問題,硬件問題,數(shù)據(jù)問題等等一起任務異常,導致? ? ? ?重試,默認重復4次失敗就會放棄執(zhí)行
2、所有的map任務執(zhí)行完成才繼續(xù)執(zhí)行reduce任務,如果某一個節(jié)點計算特別慢,就新起一個節(jié)點和這個慢節(jié)點做相同的計算任務,只要其中一個完成即可
查看全部 -
MapReduce的原理:分而治之,一個大任務分成多個小的子任務(map),并行執(zhí)行后,合并結果(reduce)
查看全部 -
hadoop存放文件命令 hadoop fs -put hadoop-env.sh /input<br> hadoop獲取文件命令 hadoop fs -get<br> hadoop刪除文件命令 hadoop fs -rm <br> hadoop創(chuàng)建目錄命令 hadoop fs -mkdir<br> hadoop 格式化操作 : hadoop namenode -formet hadoop查看存儲信息 hadoop dfsadmin -report<br>
查看全部 -
?HDFS特點
1、數(shù)據(jù)大量冗余
2、流式數(shù)據(jù)訪問:一次寫入多次讀取,一旦寫入,無法修改
3、存儲大文件
4、吞吐量高,適合批量讀寫
5、不適合交互式應用,延時性無法滿足
6、不支持多用戶并發(fā)寫相同的文件
查看全部 -
hdfs讀取數(shù)據(jù)流程:
讀取:
1、客戶端想namenode請求
2、namenode返回元數(shù)據(jù)(數(shù)據(jù)包含哪些塊,以及這些塊的位置等等)
3、讀數(shù)據(jù)數(shù)據(jù)塊并組裝
查看全部 -
hdfs寫入:
1、客戶端拆分文件
2、客戶端請求namenode,namenode返回可以用的datanode
3、寫入數(shù)據(jù)塊到datanode
4、復制數(shù)據(jù)庫
5、更新元數(shù)據(jù)到namenode
查看全部 -
HDFS設計架構: ? ? ? ? ? ??
塊:文件以“塊”進行存儲,HDFS默認塊大小為64M ? ? ? ? ? ??
namenode:是管理節(jié)點,存放文件元數(shù)據(jù),包括文件與數(shù)據(jù)塊的映射表、數(shù)據(jù)塊與數(shù)據(jù)節(jié)點的映射表 ? ? ? ? ? ??
datenode:工作節(jié)點,真正存儲數(shù)據(jù)塊 最終體系結構:由block、namenode、datanode、secondarynamenode、client組成
查看全部 -
HDFS 分布式文件系統(tǒng)
MapReduce 并行處理礦建
HIVE 將SQL語句轉化為Hadoop任務 ,降低使用門檻
HBASE 存儲結構化數(shù)據(jù)的分布式數(shù)據(jù)庫
(放棄了事務特性 最求更高的擴展)
zookeeper 監(jiān)控Hadoop集群的狀態(tài)、管理配置、維護節(jié)點一次性
查看全部 -
Hadoop是開源的分布式存儲、分布式計算平臺
兩個核心組成:HDFS分布式文件系統(tǒng),存儲海量的數(shù)據(jù)
MapReduce并行處理框架,實現(xiàn)任務分解和調(diào)度
作用:可以搭建大型數(shù)據(jù)倉庫,PB級數(shù)據(jù)的存儲、處理、分析、統(tǒng)計等業(yè)務
優(yōu)勢:
1、高擴展
2、低成本
3、成熟的生態(tài)圈
查看全部 -
Google大數(shù)據(jù)技術的革命性的變化
1、成本低,能用PC機,就不用大型機和高端存儲
2、軟件容錯硬件故障視為常態(tài),通過軟件保證可靠性。
3、簡化并行分布式計算,無須控制節(jié)點同步和數(shù)據(jù)交換
查看全部 -
1個job就是一個目標,完成目標需要分解成多個task
查看全部
舉報