网站建设 >

查看其它板块

MR编程模型及MRV1讲解-创新互联

MR编程模型

MR编程模型主要分为五个步骤：输入、映射、分组、规约、输出。

创新互联建站自2013年起，先为衡山等服务建站，衡山等地企业，进行企业商务咨询服务。为衡山企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。

输入（InputFormat）：
主要包含两个步骤—数据分片、迭代输入

数据分片（getSplits）：数据分为多少个splits，就有多少个map task; 
单个split的大小，由设置的split.minsize和split.maxsize决定;
公式为 max{minsize, min{maxsize, blocksize}}； 
hadoop2.7.3之前blocksize默认64M，之后默认128M。

决定了单个split大小之后，就是hosts选择，一个split可能包含多个block（将minsize设置大于128M）；
而多个block可能分布在多个hosts节点上（一个block默认3备份，如果4个block就可能在12个节点），getsplits会选择包含数据最多的一部分hosts。
由此可见，为了让数据本地话更合理，最好是一个block一个task，也就是说split大小跟block大小一致。

getSplits会产生两个文件
job.split：存储的主要是每个分片对应的HDFS文件路径，和其在HDFS文件中的起始位置、长度等信息（map task使用，获取分片的具体位置）；
job.splitmetainfo：存储的则是每个分片在分片数据文件job.split中的起始位置、分片大小和hosts等信息（主要是作业初始化时使用，用于map task的本地化）。

迭代输入：迭代输入一条条的数据，对于文本数据来说，key就是行号、value当前行文本。

映射（map）：正常的map操作，将一对kv映射成为另外一对kv
分组（partition）：
按照设置的reduce个数来进行分组，getPartitions共三个参数：k、v、partitionnum；
默认按照HashPartition，如果需要全排序，也可以设置TotalOrderPartitioner，它会采样一部分数据排序后设置R-1（R是reduce个数）个分割点，保证map task生成的R个文件的文件与文件之间的数据都是有序的，reduce只需要对单个文件内部再排序即可。
规约（reduce）：reduce做聚合处理。
输出（OutputFormat）：
一件事情是检查输出目录是否存在，如果存在则报错；
另一件事情是将数据输出到临时目录。

作业提交及初始化

MR编程模型及MR V1讲解

作业提交与初始化大概分为4个步骤：执行提交、client上传文件到hdfs、client与JobTracker通信提交任务、JobTracker通知TaskScheduler初始化任务。
JobClient与JobTracker的通信过程如下两所示
作业提交时序图
第一步：JobClient先跟JobTracker交互获取到一个jobid；
第二步：JobClient与HDFS交互创建输出目录；
第三步：与HDFS交互上传任务运行所以来的文件（配置文件、jar包等）
第四步：JobClient调用getSplits，与HDFS交互生成分片信息并写到分片文件中；
第五步：与jobtracker交互提交任务。
JobTracker收到任务提交请求后会先生成一个JobInProgress对象，这个对象会管理和监控这个job的整个运行状况；之后JobTracker再告诉TaskSchduler进行作业初始化。
作业初始话大致过程如下

JobTracker与TaskTracker

JobTracker主要负责作业的运行时管理，以三级树的方式进行管理：首先会给作业初始化一个对象JobInProgress，初始化后每个task有个TaskInProgress，每个task对应多个TaskAtempt。其中一个TA成功则此TI成功，所有TI成功则此job成功
JobTracker将很多数据以KV形式存储在map中，比如jobs存储的是jobid和JobInProgress的映射；
JobTracker通过接收TaskTracker的心跳请求，并发出应答来监控和管理作业运行过程，在应答中会下达各种命令：运行新task、杀死task等等
TaskTracker：在每台机器上会启动一个TaskTracker进程，不断地向JobTracker发送心跳，汇报当前节点的资源使用情况、当前节点的task运行情况，并根据JobTracker在应答中的指令执行具体命令
TaskTracker会为每个task启动一个JVM（可重用，但是仅限于重用同类型任务）
TaskTracker启动一个新任务
第一步：先进行作业本地化，某个作业在TaskTracker上的第一个task会进行作业本地化，也就是把作业运行依赖的文件、jar包从hdfs下载到本地。（为避免多个task同时进行作业本地化，会对本地化操作加锁）；
第二步：创建任务临时目录；
第三步：启动JVM，并在JVM运行任务（部分情况JVM可复用）；

Map Task内部运行过程

map task总共可以五个过程：read、map、collect、splill、conbine。
Read：从数据源读入一条条数据；
map：将数据传给map函数，变成另外一对KV
collect阶段：
主要是map处理完的数据，先放入内存的环形缓冲区中，待环形缓冲区的值超过一定比例的时候再执行下一步的spill到磁盘；
collect()内部会调用getPartition来进行分区，而环形缓冲区则存储的是K、V和partition号 MR编程模型及MR V1讲解
这里采用的两级索引结构，主要是排序时在同一个partition内排序，所以先排partition，再排partition内部数据。
kvindices中记录的分区号、key开始的位置、value开始的位置，也就是一对儿KV在kvindices中占用3个int，kvoffsets只记录一对KV在kvindices中的偏移地址，所以只需要一个int，所以二者按1：3的大小分配内存。
spill过程：
环形缓存区中内存数据在超过一定阈值后会spill到磁盘上，在splill到磁盘上之前会先在内存中进行排序（快速排序）；
之后按分区编号分别写到临时文件，同一个分区编号后面会有个数字，表示第几次溢写，conbine：对多个文件合并，多伦递归，没轮合并最小的n个文件。

Reduce Task内部运行过程

reduce总共可分为以下几个阶段：shuffle、merge、sort、reduce、write
shuffle：从JobTracker中获取已完成的map task列表以及输出位置，通过http接口获取数据；
merge：shuffle拉去的数据线放入内存，内存不够再放入磁盘，会有一个线程不断地合并内存和磁盘中的数据
sort：reduce从不同的map task中拉取到多个有序文件，然后再做一次归并排序，则每个reduce获取到文件就都是有序的了

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

网页名称：MR编程模型及MRV1讲解-创新互联
转载源于：http://cdkjz.cn/article/cdiphi.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

四川胜锦安防二枢服务器托管成都企业网站设计医药医疗网站建设方案晟和广告黔盛装饰腾讯云免备案空间 jyfdjwx.com 佑馨产后护理网络营销推广

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

MR编程模型及MRV1讲解-创新互联

MR编程模型

作业提交及初始化

JobTracker与TaskTracker

Map Task内部运行过程

Reduce Task内部运行过程

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

MR编程模型及MRV1讲解-创新互联

MR编程模型

作业提交及初始化

JobTracker与TaskTracker

Map Task内部运行过程

Reduce Task内部运行过程

相关资讯

MySQL主从复制与读写分离的原理

关于ssl双向认证的基本原理介绍

hadoop2.2.X弃用的配置属性有哪些

98django_model2

svn，git信息泄漏利用原理及现状

JavaScript中怎么利用DOM修改文档树

nagioscheck_disk:DISKCRITICAL-/root/.gvfsisnotaccessible:Permissiondenied

MongoDb中"notmasterandslaveok=false"错误怎么解决

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接