首頁猿問如何在MaxCompute上運(yùn)行H...

如何在MaxCompute上運(yùn)行HadoopMR作業(yè)？

Hadoop

慕尼黑的夜晚無繁華 2018-11-04 13:09:29

如何在MaxCompute上運(yùn)行HadoopMR作業(yè)

查看完整描述

1 回答

犯罪嫌疑人X

TA貢獻(xiàn)2080條經(jīng)驗(yàn) 獲得超4個(gè)贊

MaxCompute（原ODPS）有一套自己的MapReduce編程模型和接口，簡單說來，這套接口的輸入輸出都是MaxCompute中的Table，處理的數(shù)據(jù)是以Record為組織形式的，它可以很好地描述Table中的數(shù)據(jù)處理過程，然而與社區(qū)的Hadoop相比，編程接口差異較大。Hadoop用戶如果要將原來的Hadoop MR作業(yè)遷移到MaxCompute的MR執(zhí)行，需要重寫MR的代碼，使用MaxCompute的接口進(jìn)行編譯和調(diào)試，運(yùn)行正常后再打成一個(gè)Jar包才能放到MaxCompute的平臺來運(yùn)行。這個(gè)過程十分繁瑣，需要耗費(fèi)很多的開發(fā)和測試人力。如果能夠完全不改或者少量地修改原來的Hadoop MR代碼就能在MaxCompute平臺上跑起來，將是一個(gè)比較理想的方式。
現(xiàn)在MaxCompute平臺提供了一個(gè)HadoopMR到MaxCompute MR的適配工具，已經(jīng)在一定程度上實(shí)現(xiàn)了Hadoop MR作業(yè)的二進(jìn)制級別的兼容，即用戶可以在不改代碼的情況下通過指定一些配置，就能將原來在Hadoop上運(yùn)行的MR jar包拿過來直接跑在MaxCompute上。目前該插件處于測試階段，暫時(shí)還不能支持用戶自定義comparator和自定義key類型，下面將以WordCount程序?yàn)槔榻B一下這個(gè)插件的基本使用方式。

反對回復(fù) 2018-11-14