以MapReduce编程五步走为基础，说MapReduce工作原理-快上网网站建设公司

以MapReduce编程五步走为基础，说MapReduce工作原理

在之前的Hadoop是什么中已经说过MapReduce采用了分而治之的思想，MapReduce主要分为两部分，一部分是Map——分，一部分是Reduce——合

成都创新互联专注为客户提供全方位的互联网综合服务，包含不限于网站设计制作、成都网站制作、集美网络推广、小程序开发、集美网络营销、集美企业策划、集美品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们最大的嘉奖；成都创新互联为所有大学生创业者提供集美建站搭建服务，24小时服务热线：028-86922220，官方网址：www.cdcxhl.com

MapReduce全过程的数据都是以键值对的形式存在的
如果你想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：784789432.欢迎你的加入。每天下午三点开直播分享基础知识，晚上20:00都会开直播给大家分享大数据项目实战。

首先，我们假设我们有一个文件，文件中存了以下内容

hive spark hive hbase
hadoop hive spark
sqoop flume scala

这里涉及到一个偏移量（一个字符或空格为1位）
第一行的偏移量为0，内容为“hive spark hive hbase”
第二行的偏移量为21，内容为“hadoop hive spark”
第三行的偏移量为39，内容为“sqoop flume scala”

Map
输入
MapReduce处理的数据是从HDFS中读出来的
以偏移量为key，内容value，则存在：
（0，“hive spark hive hbase”）
（21，“hadoop hive spark”）
（39，“sqoop flume scala”）
输出
将输入的value中的词以空格为分割逐个取出来做key，1做value存起来
（hive，1）
（spark，1）
（hive，1）
（hbase，1）
（hadoop，1）
注意：有多少行，Map就要循环做几次
shuffle（之后会详细说，这里简单解释）
输入
map的输出
输出
相同的key的value进行合并
这里合并不是进行累加或别的运算，而是合并到一个集合中
（hive，[1,1,1]）
（spark,[1,1]）
（hbase，[1]）
（hadoop，[1]）
。。。。。。
reduce
输入
shuffle的输出
输出
根据业务将value进行合并
例如当前的业务就会将value进行累加
MapReduce处理数据五步走
整个MapReduce程序，所有数据以（key，value）形式流动

第一步：input
正常情况下不需要写代码
仅仅在MapReduce程序运行的时候指定一个路径即可

第二步：map（核心）
map（key，value，output，context）
key：每行数据的偏移量——基本没用
value：每行数据的内容——真正需要处理的内容

第三步：shuffle
不需要写代码

第四步：reduce（核心）
reduce（key，value，output，context）
key：业务需求中的key
value：要聚合的值

第五步：output
正常情况下不需要写代码
仅仅在MapReduce程序运行的时候指定一个路径即可

工作原理
这里写图片描述

网站名称：以MapReduce编程五步走为基础，说MapReduce工作原理
转载来于：http://cdkjz.cn/article/pchgoo.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

以MapReduce编程五步走为基础，说MapReduce工作原理

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

以MapReduce编程五步走为基础，说MapReduce工作原理

相关资讯

MySQL5.7报错

oracle根据操作资源的类型把锁分哪几类

Java的函数的奇怪重载是什么

Linux支持几种Namespace

Java异常的处理方式实例分析

c++中的虚函数

jQuery简单实现遍历单选框的方法

如何替换php中文件内容

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接