首頁(yè) 猿問 Hadoop如何實(shí)現(xiàn)將計(jì)算邏輯分發(fā)...

Hadoop如何實(shí)現(xiàn)將計(jì)算邏輯分發(fā)到各個(gè)子節(jié)點(diǎn)上的

Java

寶慕林4294392 2019-04-19 18:19:12

在研究了一段hadoop后，對(duì)hadoop的分布式架構(gòu)有了一定的了解，都知道移動(dòng)計(jì)算比移動(dòng)數(shù)據(jù)效率更高，那么hadoop是如何將計(jì)算移動(dòng)到各個(gè)節(jié)點(diǎn)上進(jìn)行計(jì)算的呢？我猜想是將計(jì)算的邏輯和其依賴的包都分發(fā)到了各個(gè)節(jié)點(diǎn)上，然后再在各自的節(jié)點(diǎn)上進(jìn)行計(jì)算，不知道是不是這樣，希望大家能把細(xì)節(jié)補(bǔ)充的更完善。

查看完整描述

3 回答

繁星coding

TA貢獻(xiàn)1797條經(jīng)驗(yàn) 獲得超4個(gè)贊

Hadoop 的NameNode 知道集群的計(jì)算資源分布,數(shù)據(jù)存儲(chǔ)分布.

在分布任務(wù)的時(shí)候,需要對(duì)數(shù)據(jù)進(jìn)行切分,然后進(jìn)行計(jì)算. 這個(gè)時(shí)候分配就需要考慮數(shù)據(jù)的存儲(chǔ)位置.

Hadoop會(huì)盡量將計(jì)算分布到數(shù)據(jù)存儲(chǔ)的節(jié)點(diǎn)上.
如果存儲(chǔ)的節(jié)點(diǎn)沒用資源,比如CPU完全被占用.那會(huì)盡量將計(jì)算分布到數(shù)據(jù)存貯節(jié)點(diǎn)相同機(jī)架上的節(jié)點(diǎn)進(jìn)行計(jì)算.
最后如果還是沒辦法做到,那就只能隨機(jī)的選取一個(gè)節(jié)點(diǎn)了.

當(dāng)然是所有的Spring jar也會(huì)傳遞上去,然后下載下來(lái). 要不執(zhí)行MR的JVM到哪去Load需要的class文件.

根據(jù)經(jīng)驗(yàn),通常我都是直接打成一個(gè)大包,這樣就會(huì)方便很多. 這個(gè)Jar包最好會(huì)上傳到 mapred.jar 指定的地址(下面是一個(gè)例子), Job完了會(huì)刪除Jar文件. hdfs://h03:8020/user/root/.staging/job_201408140358_0030/job.jar

那些維護(hù)對(duì)象的關(guān)聯(lián)關(guān)系的配置文件肯定也是要傳上去的,并且讀取文件不能使用絕對(duì)路徑,尋找路徑要依賴于Classpath. 如果你自己定義了一些配置文件,也是同樣的道理. 樓主準(zhǔn)備結(jié)貼嗎?

反對(duì) 回復(fù) 2019-05-06