-
Hadoop的功能和優(yōu)勢(shì): Apache開源的 分布式存儲(chǔ)+分布式計(jì)算平臺(tái)。 組成: 兩個(gè)核心: HDFS:分布式文件系統(tǒng),存儲(chǔ)海量的數(shù)據(jù) MapReduce:并行處理框架,實(shí)現(xiàn)任務(wù)分解和調(diào)度 用途: 搭建大型數(shù)據(jù)倉(cāng)庫(kù),PB級(jí)數(shù)據(jù)的存儲(chǔ)、處理、分析、統(tǒng)計(jì)等業(yè)務(wù) 優(yōu)勢(shì): 高擴(kuò)展、低成本(普通PC)、成熟的生態(tài)圈(開源加快它的發(fā)展)查看全部
-
Hadoop: Google大數(shù)據(jù)技術(shù),MapReduce、BigTable、GFS 革命性的變化: 1、成本降低,能用PC機(jī),就不用大型機(jī)和高端存儲(chǔ)。 2、軟件容錯(cuò)硬件故障視為常態(tài),通過軟件保證可靠性。 3、簡(jiǎn)化并行分布式計(jì)算,無需控制節(jié)點(diǎn)同步和數(shù)據(jù)交換。 Hadoop是一個(gè)模仿Google大數(shù)據(jù)技術(shù)的開源軟件。查看全部
-
1準(zhǔn)備linux環(huán)境 租用“云主機(jī)”,阿貍云,unitedStack等 云主機(jī)不受本機(jī)性能影響 2安裝JDK 3配置hadoop查看全部
-
hadoop=HDFS+MapReduce+開源工具(Hive,Hbase存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)的database,zookeeper) hadoop版本的選擇,最新2.6 2.x和1.x差別比較大 1.2穩(wěn)定易上手易理解,2.x不穩(wěn)定查看全部
-
hadoop分布式儲(chǔ)存和分布式計(jì)算 =HDFS分布式文件系統(tǒng) +MapReduce并行處理框架 搭建大型數(shù)據(jù)倉(cāng)庫(kù),PB級(jí)數(shù)據(jù)的存儲(chǔ)處理分析 優(yōu)勢(shì):高擴(kuò)展、低成本、成熟的生態(tài)圈 應(yīng)用情況:很多 業(yè)界大數(shù)據(jù)平臺(tái)的首選,人才需求越來越大:開發(fā)+運(yùn)維查看全部
-
hadoop模仿google大數(shù)據(jù)技術(shù)的開源實(shí)現(xiàn) 三個(gè)優(yōu)點(diǎn)查看全部
-
vim /etc/profile 配置環(huán)境變量 export JAVA_HOME=/jdk路徑 export JRE_HOME=$JAVA_HOME/jre export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH=$JAVA_HOME/lib:$JRE_HOME/lib:$PATH 讓配置生效 source /etc/profile查看全部
-
1,編寫Wordcount.java,包含Mappper類和reducer類。 2,編譯成class文件 3,打成jar包。 4,提交到Hadoop運(yùn)行查看全部
-
客戶端----job任務(wù)----jobtracker(作業(yè)調(diào)度)----拆分成maptask 和reducetask mapreduce 容錯(cuò) -----重復(fù)執(zhí)行----推測(cè)執(zhí)行查看全部
-
把大的任務(wù)分成許多子任務(wù)map,并行執(zhí)行,合并結(jié)構(gòu)reduce。 如:100GB的日志,按時(shí)間分成7份,統(tǒng)計(jì)ip的次數(shù),用hash映射,在規(guī)約,中間合并排序,最后得到訪問最多的IP查看全部
-
安裝Hadoop查看全部
-
HDFS使用:它提供了 shell 接口,可以進(jìn)行命令行操作 hadoop namenode -format #格式化namenode hadoop fs -ls / #打印 / 目錄文件列表 hadoop fs -mkdir input #創(chuàng)建目錄 input hadoop fs -put hadoop-env.sh input/ #上傳文件 hadoop-env.sh 到 input 目錄下 hadoop fs -get input/abc.sh hadoop-envcomp.sh #從 input 目錄中下載文件 hadoop fs -cat input/hadoop-env.sh #查看文件 input/hadoop-env.sh hadoop dfsadmin -report #dfs報(bào)告查看全部
-
$ hadoop namenode -format 節(jié)點(diǎn)塊格式化 $ hadoop fs -ls 當(dāng)前目錄 $ hadoop fs -put 上傳文件 $ hadoop fs -get 下載文件查看全部
-
HDFS 的特點(diǎn): 1,數(shù)據(jù)冗余,硬件容錯(cuò) 2,流水線式的數(shù)據(jù)訪問(一次讀寫多次讀?。?3,存儲(chǔ)大文件 4)適用性和局限性: 適合數(shù)據(jù)批量讀寫,吞吐量高 不適合交互式應(yīng)用,低延遲很難需求滿足 適合一次讀寫多次讀取,順序讀寫 不支持多用戶并發(fā)寫相同的文件查看全部
-
文件拆分塊----namenode中空的節(jié)點(diǎn)---返回datanode----寫入blocks----寫三份備份------更新元數(shù)據(jù)查看全部
舉報(bào)
0/150
提交
取消