影響MapReduce的主要因素有以下幾個(gè):
硬件(或者資源)因素,如CPU時(shí)鐘、磁盤I/O、網(wǎng)絡(luò)帶寬和內(nèi)存大小。
底層存儲(chǔ)系統(tǒng)。
輸入數(shù)據(jù)、分揀(shuffle)數(shù)據(jù)以及輸出數(shù)據(jù)的大小,這與作業(yè)的運(yùn)行時(shí)間緊密相關(guān)。
作業(yè)算法(或者程序),如map、reduce、partition、combine和compress。有些算法很難在MapReduce中概念化,或者在MapReduce中效率可能會(huì)降低。
硬件(或者資源)因素,如CPU時(shí)鐘、磁盤I/O、網(wǎng)絡(luò)帶寬和內(nèi)存大小。
底層存儲(chǔ)系統(tǒng)。
輸入數(shù)據(jù)、分揀(shuffle)數(shù)據(jù)以及輸出數(shù)據(jù)的大小,這與作業(yè)的運(yùn)行時(shí)間緊密相關(guān)。
作業(yè)算法(或者程序),如map、reduce、partition、combine和compress。有些算法很難在MapReduce中概念化,或者在MapReduce中效率可能會(huì)降低。
2018-07-09
問(wèn)題 namenode掛掉怎么辦?
重啟namenode1。集群短暫正常之后兩個(gè)namenode都掛掉,日志顯示內(nèi)存溢出。進(jìn)一步重啟整個(gè)集群,短暫正常后namenode再次掛掉。
此時(shí),修改hadoop_heapsize參數(shù)為4G,并調(diào)小隊(duì)列3所允許的最大隊(duì)列數(shù)為4,重新修改hadoop_heapsize參數(shù),重啟集群正常
重啟namenode1。集群短暫正常之后兩個(gè)namenode都掛掉,日志顯示內(nèi)存溢出。進(jìn)一步重啟整個(gè)集群,短暫正常后namenode再次掛掉。
此時(shí),修改hadoop_heapsize參數(shù)為4G,并調(diào)小隊(duì)列3所允許的最大隊(duì)列數(shù)為4,重新修改hadoop_heapsize參數(shù),重啟集群正常
2018-07-08
感謝老師分享?。?!
Apache Spark 是一款開源的、基于內(nèi)存的、專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的分布式計(jì)算框架,可作為 MapReduce 的替代方案,同時(shí)也很好地兼容其他大數(shù)據(jù)組件。
Spark 僅僅是一個(gè)分布式計(jì)算框架,專注于數(shù)據(jù)的計(jì)算,類似 MapReduce、Storm、Flink。Spark 不包含存儲(chǔ)、調(diào)度等功能,而數(shù)據(jù)的存儲(chǔ)在生產(chǎn)環(huán)境中往往還是由 Hadoop HDFS 承擔(dān),調(diào)度也是采用“Spark on YARN”的方式。
Spark 抽象出一個(gè)非常重要的概念:RDD(Resilient Distributed Datasets,彈性分布式數(shù)據(jù)集)
Apache Spark 是一款開源的、基于內(nèi)存的、專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的分布式計(jì)算框架,可作為 MapReduce 的替代方案,同時(shí)也很好地兼容其他大數(shù)據(jù)組件。
Spark 僅僅是一個(gè)分布式計(jì)算框架,專注于數(shù)據(jù)的計(jì)算,類似 MapReduce、Storm、Flink。Spark 不包含存儲(chǔ)、調(diào)度等功能,而數(shù)據(jù)的存儲(chǔ)在生產(chǎn)環(huán)境中往往還是由 Hadoop HDFS 承擔(dān),調(diào)度也是采用“Spark on YARN”的方式。
Spark 抽象出一個(gè)非常重要的概念:RDD(Resilient Distributed Datasets,彈性分布式數(shù)據(jù)集)
2018-06-11
老師有篇手記講了這個(gè)的:
我們?yōu)槭裁葱枰狧Base?:http://idcbgp.cn/article/26090
我們?yōu)槭裁葱枰狧Base?:http://idcbgp.cn/article/26090
2018-06-11
HBase(Hadoop Database)是一個(gè)分布式 NoSQL 列存儲(chǔ)數(shù)據(jù)庫(kù)。HBase 利用 HDFS 作為其文件存儲(chǔ)系統(tǒng),利用 Hadoop MapReduce 處理海量數(shù)據(jù),還可以利用 Zookeeper 作為協(xié)同服務(wù)。HBase 源自 Google 在 2006 年發(fā)表的 BigTable 論文,它整體的架構(gòu)與 BigTable 很類似。
2018-06-11
Hadoop 生態(tài)圈囊括了大數(shù)據(jù)處理的方方面面,其中的大多數(shù)組件都是開源免費(fèi)的。組件都有自己的適用場(chǎng)景,如:HBase 做查詢,Hive 做 SQL 離線批處理,F(xiàn)lume 做日志收集,Sqoop 做數(shù)據(jù)交換等。
學(xué)習(xí)目標(biāo):學(xué)習(xí)Hadoop生態(tài)圈的組成、核心組件,以及每個(gè)組件的應(yīng)用場(chǎng)景,它們的優(yōu)缺點(diǎn)和特性
建議學(xué)習(xí)路線:Hadoop 體系架構(gòu)與環(huán)境搭建 -> HDFS -> YARN -> MapReduce -> Hive -> HBase -> Sqoop -> Pig -> Flume -> HUE -> ZooKeeper(HA) -> Storm ----> Spark
學(xué)習(xí)目標(biāo):學(xué)習(xí)Hadoop生態(tài)圈的組成、核心組件,以及每個(gè)組件的應(yīng)用場(chǎng)景,它們的優(yōu)缺點(diǎn)和特性
建議學(xué)習(xí)路線:Hadoop 體系架構(gòu)與環(huán)境搭建 -> HDFS -> YARN -> MapReduce -> Hive -> HBase -> Sqoop -> Pig -> Flume -> HUE -> ZooKeeper(HA) -> Storm ----> Spark
2018-06-11
運(yùn)用 HDFS shell 的方式對(duì)文件進(jìn)行操作,HDFS shell 類似 Linux shell。
hadoop fs [generic options]與hdfs dfs [generic options]是一個(gè)命令
hadoop fs [generic options]與hdfs dfs [generic options]是一個(gè)命令
2018-06-11
文件寫入:
1. Client向NameNode發(fā)起文件寫入的請(qǐng)求
2. NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息
3. Client將文件劃分為多個(gè)Block,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€(gè)DataNode塊中。
文件讀?。?br />
1. Client向NameNode發(fā)起文件讀取的請(qǐng)求。
2. NameNode返回文件存儲(chǔ)的DataNode的信息。
3. Client讀取文件信息。
1. Client向NameNode發(fā)起文件寫入的請(qǐng)求
2. NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息
3. Client將文件劃分為多個(gè)Block,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€(gè)DataNode塊中。
文件讀?。?br />
1. Client向NameNode發(fā)起文件讀取的請(qǐng)求。
2. NameNode返回文件存儲(chǔ)的DataNode的信息。
3. Client讀取文件信息。
2018-06-11
【百度百科定義】:大數(shù)據(jù)(big data),指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
【通俗定義】:大數(shù)據(jù)是一個(gè)概念也是一門技術(shù),它是以 Hadoop 和 Spark 為代表的大型軟件平臺(tái),我們可以在這個(gè)軟件平臺(tái)上進(jìn)行大規(guī)模數(shù)據(jù)的分析和處理。數(shù)據(jù)處理可分為兩類:離線批處理(Hadoop 為代表)、實(shí)時(shí)流處理(Spark 為代表)。
【通俗定義】:大數(shù)據(jù)是一個(gè)概念也是一門技術(shù),它是以 Hadoop 和 Spark 為代表的大型軟件平臺(tái),我們可以在這個(gè)軟件平臺(tái)上進(jìn)行大規(guī)模數(shù)據(jù)的分析和處理。數(shù)據(jù)處理可分為兩類:離線批處理(Hadoop 為代表)、實(shí)時(shí)流處理(Spark 為代表)。
2018-06-11
已采納回答 / 慕圣7118117
2.0版本是有兩個(gè)namenode的,一個(gè)是主節(jié)點(diǎn),一個(gè)是備用的,主節(jié)點(diǎn)掛了,就激活備用的
2018-06-02
已采納回答 / qq_兵刃_04412779
塊的大小設(shè)置原則:最小化尋址開小。?塊越大尋址時(shí)間越短,?傳輸一個(gè)由多個(gè)塊的組成的文件取決于磁盤傳輸速率。如尋址時(shí)間約為10ms,傳輸速率為100MB/S,為了使尋址時(shí)間僅占傳輸時(shí)間的1%,塊的大小設(shè)置約為100MB,默認(rèn)大小是64MB,現(xiàn)在在實(shí)際身纏中都是128MB了,隨著新一代磁盤去東區(qū)傳輸速率的提升,塊的大小將會(huì)被設(shè)置的更大。注意:塊的大小太大的話,一個(gè)map任務(wù)處理一個(gè)塊,那任務(wù)數(shù)就變少了,作業(yè)運(yùn)行速度也就變慢了。
2018-06-02