3 回答

TA貢獻(xiàn)1797條經(jīng)驗(yàn) 獲得超4個(gè)贊
Hadoop 的NameNode 知道集群的計(jì)算資源分布,數(shù)據(jù)存儲(chǔ)分布.
在分布任務(wù)的時(shí)候,需要對(duì)數(shù)據(jù)進(jìn)行切分,然后進(jìn)行計(jì)算. 這個(gè)時(shí)候分配就需要考慮數(shù)據(jù)的存儲(chǔ)位置.
Hadoop會(huì)盡量將計(jì)算分布到數(shù)據(jù)存儲(chǔ)的節(jié)點(diǎn)上.
如果存儲(chǔ)的節(jié)點(diǎn)沒用資源,比如CPU完全被占用.那會(huì)盡量將計(jì)算分布到數(shù)據(jù)存貯節(jié)點(diǎn)相同機(jī)架上的節(jié)點(diǎn)進(jìn)行計(jì)算.
最后如果還是沒辦法做到,那就只能隨機(jī)的選取一個(gè)節(jié)點(diǎn)了.
當(dāng)然是所有的Spring jar也會(huì)傳遞上去,然后下載下來(lái). 要不執(zhí)行MR的JVM到哪去Load需要的class文件.
根據(jù)經(jīng)驗(yàn),通常我都是直接打成一個(gè)大包,這樣就會(huì)方便很多. 這個(gè)Jar包最好會(huì)上傳到 mapred.jar 指定的地址(下面是一個(gè)例子), Job完了會(huì)刪除Jar文件. hdfs://h03:8020/user/root/.staging/job_201408140358_0030/job.jar
那些維護(hù)對(duì)象的關(guān)聯(lián)關(guān)系的配置文件肯定也是要傳上去的,并且讀取文件不能使用絕對(duì)路徑,尋找路徑要依賴于Classpath. 如果你自己定義了一些配置文件,也是同樣的道理. 樓主準(zhǔn)備結(jié)貼嗎?
添加回答
舉報(bào)