首頁猿問 Hadoop：是什么，如何工作，可...

Hadoop：是什么，如何工作，可以用來做什么

Hadoop

心有法竹 2019-02-23 15:15:52

查看完整描述

2 回答

陪伴而非守候

TA貢獻1757條經(jīng)驗獲得超8個贊

Hadoop主要是分布式計算和存儲的框架，所以Hadoop工作過程主要依賴于HDFS(Hadoop Distributed File System)分布式存儲系統(tǒng)和Mapreduce分布式計算框架。

分布式存儲系統(tǒng)HDFS中工作主要是一個主節(jié)點namenode(master)（hadoop1.x只要一個namenode節(jié)點，2.x中可以有多個節(jié)點）和若干個從節(jié)點Datanode(數(shù)據(jù)節(jié)點)相互配合進行工作,HDFS主要是存儲Hadoop中的大量的數(shù)據(jù)，namenode節(jié)點主要負責(zé)的是：
1、接收client用戶的操作請求，這種用戶主要指的是開發(fā)工程師的Java代碼或者是命令客戶端操作。
2、維護文件系統(tǒng)的目錄結(jié)構(gòu)，主要就是大量數(shù)據(jù)的關(guān)系以及位置信息等。
3、管理文件系統(tǒng)與block的關(guān)系，Hadoop中大量的數(shù)據(jù)為了方便存儲和管理主要是以block塊（64M）的形式儲存。一個文件被分成大量的block塊存儲之后，block塊之間都是有順序關(guān)系的，這個文件與block之間的關(guān)系以及block屬于哪個datanode都是有namenode來管理。
Datanode的主要職責(zé)是：
1、存儲文件。
2、將數(shù)據(jù)分成大量的block塊。
3、為保證數(shù)據(jù)的安全，對數(shù)據(jù)進行備份，一般備份3份。當(dāng)其中的一份出現(xiàn)問題時，將由其他的備份來對數(shù)據(jù)進行恢復(fù)。
MapReduce主要也是一個主節(jié)點JOPtracker和testtracker組成，主要是負責(zé)hadoop中的數(shù)據(jù)處理過程中的計算問題。
joptracker主要負責(zé)接收客戶端傳來的任務(wù)，并且把計算任務(wù)交給很多testtracker工作，同時joptracker會不斷的監(jiān)控testtracker的執(zhí)行情況。
testtracker主要是執(zhí)行joptracker交給它的任務(wù)具體計算，例如給求大量數(shù)據(jù)的最大值，每個testtracker會計算出自己負責(zé)的數(shù)據(jù)中的最大值，然后交給joptracker。

Hadoop的主要兩個框架組合成了分布式的存儲和計算，使得hadoop可以很快的處理大量的數(shù)據(jù)。

反對回復(fù) 2019-03-02

湖上湖

TA貢獻2003條經(jīng)驗獲得超2個贊

要有java語言基礎(chǔ)，和 linux系統(tǒng)命令基礎(chǔ)。
hadoop是運行的系統(tǒng)要求是 linux。
hadoop 用 java寫的分布式，處理大數(shù)據(jù)的框架。
只要思想是分組合并思想
分組：比如有一個大型數(shù)據(jù)，那么他就會將這個數(shù)據(jù)按照算法分成多份，每份存儲在奴隸主機上，并且在奴隸主機上進行計算。
合并：將每個機器上的計算結(jié)果合并起來再在一臺機器上計算，得到最終結(jié)果。
就是mapreduce 算法。