-
請求---namenode--返回數(shù)據(jù)---讀取各個blockes查看全部
-
每臺機架上有多個數(shù)據(jù)塊節(jié)點,每個節(jié)點數(shù)據(jù)塊有三個副本備份,至少有一個備份副本分配到別的機架上,這樣做為了每個節(jié)點會發(fā)生故障,保證數(shù)據(jù)容錯,數(shù)據(jù)的丟失,有些許數(shù)據(jù)冗余,避免掛機了數(shù)據(jù)丟失。 心跳檢測,同步做備份,一旦發(fā)生故障,備份就會替換。查看全部
-
HDFS系統(tǒng) HDFS設(shè)計架構(gòu) 塊(block): HDFS的文件被分為塊進(jìn)行存儲(默認(rèn)65MB),塊是文件存儲處理的邏輯單元。 NameNode(管理節(jié)點) 存放的元數(shù)據(jù) 1,文件與數(shù)據(jù)快的映射表 2,數(shù)據(jù)快與數(shù)據(jù)節(jié)點的映射表 DateNode(工作節(jié)點) 存放數(shù)據(jù)塊 就是真正的數(shù)據(jù) MapReduce框架查看全部
-
安裝成功查看全部
-
Hadoop配置 1,下載Hadoop安裝包 地址:http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz $ wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 2、解壓到指定目錄下; $ mv 文件 /opt 解壓 $ tar -zxvf hadoop-1.2.1.tar.gz 3、配置hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml四個文件; 進(jìn)入conf下 $ cd conf/ $ vim hadoop-env.sh 打開 配置Javahome 配置<configuration> 4、編輯/etc/profile文件,配置hadoop相關(guān)的環(huán)境變量; 5、第一次使用hadoop先進(jìn)行格式化: $ hadoop namenode -format; 6、啟動hadoop:start-all.sh; 7、檢查進(jìn)程:jps;查看全部
-
安裝JDK $ ls $ javac $ apt-get install jdk文件 $ vim /etc/profile export JAVA_HOME=jdk安裝目錄 export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=$JAVA_HOME/lib;$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/lib;$JRE_HOME/lib:$PATH $ source /etc/profile查看全部
-
hadoop fs -ls查看全部
-
1. 原理: 分而治之 的思想,一個大任務(wù)分成多個小任務(wù)(map),并行執(zhí)行后,合并結(jié)果(reduce) 2. 運行流程: 1)基本概念: --Job & Task: 一個 Job(任務(wù)、作業(yè)) 被切分為多個 Task,Task 又分為 MapTask 和 ReduceTask --JobTracker 作業(yè)調(diào)度 分配任務(wù)、監(jiān)控任務(wù) 監(jiān)控 TaskTracker 的狀態(tài) --TaskTracker 執(zhí)行任務(wù) 向 JobTracker 匯報任務(wù)狀態(tài) 3. 容錯機制:2種 1)重復(fù)執(zhí)行: 默認(rèn)重復(fù)執(zhí)行 4 次,若還是失敗,則放棄執(zhí)行 2)推測執(zhí)行: 可以保證任務(wù)不會因為某1-2個機器錯誤或故障而導(dǎo)致整體效率下降查看全部
-
HDFS 的特點: 1)數(shù)據(jù)冗余,硬件容錯 2)流水線式的數(shù)據(jù)訪問 3)存儲大文件 4)適用性和局限性: 適合數(shù)據(jù)批量讀寫,吞吐量高 不適合交互式應(yīng)用,低延遲很難需求滿足 適合一次讀寫多次讀取,順序讀寫 不支持多用戶并發(fā)寫相同的文件查看全部
-
HDFS使用:它提供了 shell 接口,可以進(jìn)行命令行操作 hadoop namenode -format #格式化namenode hadoop fs -ls / #打印 / 目錄文件列表 hadoop fs -mkdir input #創(chuàng)建目錄 input hadoop fs -put hadoop-env.sh input/ #上傳文件 hadoop-env.sh 到 input 目錄下 hadoop fs -get input/abc.sh hadoop-envcomp.sh #從 input 目錄中下載文件 hadoop fs -cat input/hadoop-env.sh #查看文件 input/hadoop-env.sh hadoop dfsadmin -report #dfs報告查看全部
-
1、準(zhǔn)備liunx環(huán)境; 兩種方式:1安裝虛擬機 2,用云主機 2、安裝JDK; 3、配置hadoop;查看全部
-
Hive(蜜蜂) Hadoop的開源工具 用SQL語句----hive----轉(zhuǎn)化成-----Hadoop任務(wù)執(zhí)行 HBase 存儲結(jié)構(gòu)化數(shù)據(jù)的分布式數(shù)據(jù)庫 HBase和關(guān)系數(shù)據(jù)庫的區(qū)別:放棄事務(wù)特性,追求高擴展。 HBase和HDFS區(qū)別: 提供數(shù)據(jù)的隨機讀寫和實時訪問,實現(xiàn)對表數(shù)據(jù)的讀寫功能。 ZooKeeper(動物管理員):監(jiān)控Hadoop集群里的每個節(jié)點的狀態(tài),管理整個集群的配置,維護(hù)數(shù)據(jù)節(jié)點之間的一致性... ver1.2穩(wěn)定版本,對于初學(xué)者來說更容易上手查看全部
-
Hadoop是什么? Hadoop是一個開源的分布式存儲和分布式計算平臺 是Apache開源項目:網(wǎng)站http://hadoop.apache.org Hadoop的組成 兩個核心組成: HDFS:分布式文件系統(tǒng),存儲海量的數(shù)據(jù) MapReduce :并發(fā)處理框架,實現(xiàn)任務(wù)分解和調(diào)度。 Hadoop可以用來做什么呢? 可以用來搭建大型數(shù)據(jù)倉庫,PB級數(shù)據(jù)的存儲、處理、分析、統(tǒng)計等業(yè)務(wù)。 常用于用于搜索引擎、商業(yè)智能、日志分析以及數(shù)據(jù)挖掘。 好處優(yōu)勢: 1,高擴展 2,低成本 3,很多輔助工具查看全部
-
系統(tǒng)瓶頸:存儲容量,讀寫速度,計算效率 谷歌(Google)用MapReduce.BigTable.GFS技術(shù),降低了成本,軟件保證可靠性,簡化并行分布是計算,無須控制節(jié)點同步和數(shù)據(jù)交換查看全部
-
jps查看全部
舉報
0/150
提交
取消