Hadoop之MapReduce實(shí)戰(zhàn)

標(biāo)簽：

Hadoop

原文地址： https://itweknow.cn/detail?id=61 ,欢迎大家访问。

MapReduce是一种编程模型，"Map（映射）"和"Reduce（归约）"，是它们的主要思想，我们通过Map函数来分布式处理输入数据，然后通过Reduce汇总结果并输出。其实这个概念有点类似于我们Java8中的StreamApi，有兴趣的同学也可以去看看。
MapReduce任务过程分为两个处理阶段，map阶段和reduce阶段。每个阶段都以键-值对作为输入输出，键和值的类型由我们自己指定。通常情况map的输入内容键是LongWritable类型，为某一行起始位置相对于文件起始位置的偏移量；值是Text类型，为该行的文本内容。

前提条件

一个maven项目。
一台运行着hadoop的linux机器或者虚拟机，当然了hadoop集群也可以，如果你还没有的话可以戳这里。

我们编写一个MapReduce程序的一般步骤是：（1）map程序。（2）reduce程序。（3）程序驱动。下面我们就根据这个顺序来写一个简单的示例，这个例子是用来统计文件中每个字符出现的次数并输出。

项目依赖

我们先来解决一下依赖问题，在pom.xml中添加如下内容。

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>${hadoop.version}</version></dependency>

Map程序

我们继承Mapper类并重写了其map方法。Map阶段输入的数据是从hdfs中拿到的原数据，输入的key为某一行起始位置相对于文件起始位置的偏移量，value为该行的文本。输出的内容同样也为键-值对，这个时候输出数据的键值对的类型可以自己指定，在本例中key是Text类型的，value是LongWritable类型的。输出的结果将会被发送到reduce函数进一步处理。

public class CharCountMapper extends Mapper<LongWritable, Text, Text, LongWritable> {    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {        // 将这一行文本转为字符数组
        char[] chars = value.toString().toCharArray();        for (char c : chars) {            // 某个字符出现一次，便输出其出现1次。
            context.write(new Text(c + ""), new LongWritable(1));
        }
    }
}

Reduce程序

我们继承Reducer类并重写了其reduce方法。在本例中Reduce阶段的输入是Map阶段的输出，输出的结果可以作为最终的输出结果。相信你也注意到了，reduce方法的第二个参数是一个Iterable，MapReduce会将map阶段中相同字符的输出汇总到一起作为reduce的输入。

public class CharCountReducer extends Reducer<Text, LongWritable, Text, LongWritable> {    @Override
    protected void reduce(Text key, Iterable<LongWritable> values, Context context)
            throws IOException, InterruptedException {        long count = 0;        for (LongWritable value : values) {
            count += value.get();
        }
        context.write(key, new LongWritable(count));
    }
}

驱动程序

到目前为止，我们已经有了map程序和reduce程序，我们还需要一个驱动程序来运行整个作业。可以看到我们在这里初始化了一个Job对象。Job对象指定整个MapReduce作业的执行规范。我们用它来控制整个作业的运作，在这里我们指定了jar包位置还有我们的Map程序、Reduce程序、Map程序的输出类型、整个作业的输出类型还有输入输出文件的地址。

public class CharCountDriver {    public static void main(String[] args) throws Exception {
        Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration);        // Hadoop会自动根据驱动程序的类路径来扫描该作业的Jar包。
        job.setJarByClass(cn.itweknow.mr.CharCountDriver.class);        // 指定mapper
        job.setMapperClass(CharCountMapper.class);        // 指定reducer
        job.setReducerClass(CharCountReducer.class);        // map程序的输出键-值对类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);        // 输出键-值对类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);        // 输入文件的路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));        // 输入文件路径
        FileOutputFormat.setOutputPath(job, new Path(args[1]));        boolean res = job.waitForCompletion(true);
        System.exit(res?0:1);
    }
}

你会发现我们初始化了一个空的Configuration，但是并没有进行任何的配置，其实当我们将其运行在一个运行着hadoop的机器上时，它会默认使用我们机器上的配置。在后续的文章中我也会写一下如何在程序中进行配置。

执行MapReduce作业

打包作业，我们需要将我们的MapReduce程序打成jar包。
```
mvn package -Dmaven.test.skip=true
```
生成的jar包我们可以在target目录下找到。
将jar包复制到hadoop机器上。
在HDFS上准备好要统计的文件，我准备的文件在HDFS上的/mr/input/目录下，内容如下。
```
hello hadoop hdfs.I am coming.
```

执行jar

hadoop jar mr-test-1.0-SNAPSHOT.jar cn.itweknow.mr.CharCountDriver /mr/input/ /mr/output/out.txt

查看结果
先查看输出目录，结果如下，最终输出的结果就存放在/mr/output/part-r-00000文件中。

root@test:~# hadoop fs -ls /mr/outputFound 2 items
-rw-r--r--   1 root supergroup          0 2018-12-24 10:33 /mr/output/_SUCCESS
-rw-r--r--   1 root supergroup         68 2018-12-24 10:33 /mr/output/part-r-00000

查看结果文件的具体内容：

root@test:~# hadoop fs -cat /mr/output/part-r-00000
    4
.   2
I   1
a   2
c   1
d   2
e   1
f   1
g   1
h   3
i   1
l   2
m   2
n   1
o   4
p   1
s   1

最后，送上本文的源码地址，戳这里哦。

作者：名字想好没
链接：https://www.jianshu.com/p/146b5fc9fbb5

點(diǎn)擊查看更多內(nèi)容

為 TA 點(diǎn)贊

若覺(jué)得本文不錯(cuò)，就分享一下吧！

評(píng)論

評(píng)論

共同學(xué)習(xí)，寫(xiě)下你的評(píng)論

評(píng)論加載中...

展開(kāi)查看更多評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中

幕布斯6054654

手記
篇

粉絲

221

獲贊與收藏

1015

關(guān)注作者，訂閱最新文章

閱讀免費(fèi)教程

后端通用面試教程

41個(gè)小節(jié) 32258 360

網(wǎng)絡(luò)編程入門(mén)教程

20個(gè)小節(jié) 13303 250

Pandas 入門(mén)教程

25個(gè)小節(jié) 19926 373

推薦

評(píng)論

收藏

共同學(xué)習(xí)，寫(xiě)下你的評(píng)論



感謝您的支持，我會(huì)繼續(xù)努力的～

掃碼打賞，你說(shuō)多少就多少

贊賞金額會(huì)直接到老師賬戶(hù)

支付方式

打開(kāi)微信掃一掃，即可進(jìn)行掃碼打賞哦

今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專(zhuān)欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與放棄機(jī)會(huì)

點(diǎn)擊
抽獎(jiǎng)

慕課手記新用戶(hù)專(zhuān)享福利

恭喜你，你的運(yùn)氣太好了，居然抽中了 100個(gè)積分！

恭喜你，抽中了價(jià)值元的專(zhuān)欄！

太棒了，直接落到你賬戶(hù)里！

積分商城里的羅技鼠標(biāo)、機(jī)械鍵盤(pán)、
Kindle 閱讀器、小米平衡車(chē)
Apple iPad （10.2英寸）、大額優(yōu)惠券
在等著你去兌換了噢

作者：

免費(fèi)贈(zèng)送

兌換碼：1111222211 復(fù)制

優(yōu)惠券可用于購(gòu)買(mǎi)實(shí)戰(zhàn)課、體系課
無(wú)門(mén)檻使用

先去看看，有什么好東西馬上兌換


第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空