MapTask和ReduceTask流程是怎样的-快上网网站建设公司

MapTask和ReduceTask流程是怎样的

本篇内容主要讲解“MapTask和ReduceTask流程是怎样的”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“MapTask和ReduceTask流程是怎样的”吧!

创新互联是一家专业提供济宁企业网站建设,专注与成都网站建设、做网站、H5页面制作、小程序制作等业务。10年已为济宁众多企业、政府机构等服务。创新互联专业网站设计公司优惠进行中。

map->reduce

map和reduce之间的过程,成为shuffling,官方图是这样介绍的.(这样描述不是很准确)

MapTask和ReduceTask流程是怎样的

MapTask

每个map任务都有一个环形内存缓冲区用于存储任务的输出.默认100MB(MRJobConfig.IO_SORT_MB修改)
一旦缓冲达到阈值(MRJobConfig.MAP_SORT_SPILL_PERCENT)0.8,后台线程将内容spill到硬盘,将缓缓冲区写到MRJobConfig.JOB_LOCAL_DIR指定目录.
查看MRJobConfig.JOB_LOCAL_DIR值为mapreduce.job.local.dir,查看org.apache.hadoop.mapreduce包下的mapred-default.xml(hadoop-mapreduce-client-core.2.7.1.jar中)文件搜索local.dir,得到配置


  mapreduce.cluster.local.dir
  ${hadoop.tmp.dir}/mapred/local
  The local directory where MapReduce stores intermediate
  data files.  May be a comma-separated list of
  directories on different devices in order to spread disk i/o.
  Directories that do not exist are ignored.

ok,现在从hadoop-common-2.7.1.jar中的core-default.xml中搜索hadoop.tmp.dir


  hadoop.tmp.dir
  /tmp/hadoop-${user.name}
  A base for other temporary directories.

现在我们得到了spill的临时路径/tmp/hadoop-${user.name}/mapred/local.

在spill之前,首先进行partition,每个分区进行sort,如果有combiner,它就在排序后，执行combiner。
如果溢出文件超过三个(JobContext.MAP_COMBINE_MIN_SPILLS),将会再次执行combiner

MapTask.MapOutputBuffer中源码

if (combinerRunner == null || numSpills < minSpillsForCombine) {
    Merger.writeFile(kvIter, writer, reporter, job);
} else {
    combineCollector.setWriter(writer);
    combinerRunner.combine(kvIter, combineCollector);
}

注：map spill到磁盘时，可以设置压缩来节省磁盘和网络IO
设置 MAP_OUTPUT_COMPRESS 为true ，MRJobConfig.MAP_OUTPUT_COMPRESS_CODEC值为codec
例如：
conf.set(MRJobConfig.MAP_OUTPUT_COMPRESS, "true"); conf.set(MRJobConfig.MAP_OUTPUT_COMPRESS_CODEC, "org.apache.hadoop.io.compress.DefaultCodec");

ReduceTask

ReduceTask要从各个MapTask上读取数据，ReduceTask大体流程分为5个阶段。

Shuffle
ReduceTask从MapTask上远程拷贝数据。超过阈值写道磁盘。
Merge
ReduceTask启动两个线程，对内存和硬盘数据进行合并。
Sort
将MapTask的结果归并排序。
Reduce
用户自定义Reduce
Write
reduce结果写到HDFS

到此，相信大家对“MapTask和ReduceTask流程是怎样的”有了更深的了解，不妨来实际操作一番吧！这里是创新互联网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

分享文章：MapTask和ReduceTask流程是怎样的
网页链接：http://cdkjz.cn/article/ipdocs.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

MapTask和ReduceTask流程是怎样的

map->reduce

MapTask

ReduceTask

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

MapTask和ReduceTask流程是怎样的

map->reduce

MapTask

ReduceTask

相关资讯

java代码保存在哪里找 java代码库

如何保护云服务器安全状态 如何保护云服务器安全状态设置

智能聊天美服 美服potato下架了吗

linux全盘删除命令 linux删除文件命令

帝国cms图片带数据 帝国cms图片显示不出来如何解决

智能聊天使用需要付费吗的简单介绍

linux命令行用户 linux常用命令用户管理命令

几段java代码 一段java完整编程代码

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

如何保护云服务器安全状态如何保护云服务器安全状态设置

智能聊天美服美服potato下架了吗

帝国cms图片带数据帝国cms图片显示不出来如何解决

几段java代码一段java完整编程代码

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接