网站建设 >

查看其它板块

coalesce与repartition怎么使用

这篇文章主要介绍“coalesce与repartition怎么使用”，在日常操作中，相信很多人在coalesce与repartition怎么使用问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”coalesce与repartition怎么使用”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

为定边等地区用户提供了全套网页设计制作服务，及定边网站建设行业解决方案。主营业务为成都网站建设、成都网站制作、定边网站设计，以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

coalesce

def coalesce(numPartitions: Int, shuffle: Boolean = false,partitionCoalescer:Option[PartitionCoalescer] = Option.empty)(implicit ord: Ordering[T] = null): RDD[T]

一、功能介绍

coalesce算子最基本的功能就是返回一个numPartitions个partition的RDD。

二、使用及注意事项

这个算子的结果默认是窄依赖，举个例子

coalesce(100)

如果你想把1000个partition减少到100个partition，此时不会发生shuffle，而是每一个你设定的新partition都会替代原来的10个partition。如果初始的最大partition是100个，而你想用coalesce(1000)把partition数增至1000，这是不行的。
现在有一个需求，需要将某一个文件做ETL，最后想输出成一个文件，你会怎么办呢？
这样么？

val logs=sc.textFile(args(0),6)//你想初始化6个分区，并行执行，之后再合并成1个文件

logs.map(x=>{
      if(x.split("\t").length==72){
        val clean=parse(x)  //此处是进行了ETL
        clean
      }
    }).coalesce(2).saveAsTextFile(args(1))

如果你同意的话，可以写个demo测试一下，你会发现，仅仅有一个task！在生产上这是绝对不行！因为上述ETL的spark job仅仅有一个stage，你虽然初始化RDD是设定的6个partition，但是在action之前你使用了.coalesce(1)，此时会优先使用coalesce里面的partition数量初始化RDD，所以仅仅有一个task。生产中文件很大的话，你就只能用两个节点处理，这样无法发挥集群的优势了。解决：要在coalesce中加shuffle=tule

val logs=sc.textFile(args(0),6)

logs.map(x=>{
      if(x.split("\t").length==72){
        val clean=parse(x)  //此处是进行了ETL
        clean
      }
    }).coalesce(2,shuffle = true).saveAsTextFile(args(1))

这样，我们就会有两个stage，stage1是6个并行高速ETL处理，stage2是通过shuffle合并成2个文件
如下图
coalesce与repartition怎么使用
我们知道了，可以手动设定shuffle的发生，那么问题来了，刚刚我们不能将初始化的分区数变大，如果加上shuffle可不可以呢？答案是可以的~
如果出事RDD为100个分区，你觉得并行度不够，你可以coalesce(1000,shuffle = true)，将分区数增加到1000(默认hash partitioner进行重新)，当然你也可以使用自定义分区器，但是一定要序列化。

三、总结

coalesce算子默认只能减少分区数量，但是可以通过开启shuffle增加分区数量
coalesce的作用常常是减少分区数，已达到输出时合并小文件的效果。
在一个stage中，coalesce中设定的分区数是优先级最高的，如果想增加并行度，并合并文件，那么请开启coalesce中的shuffle，这样就会变成两个stage。达到并行且合并的效果。

repartition

/**
   * Return a new RDD that has exactly numPartitions partitions.
   *
   * Can increase or decrease the level of parallelism in this RDD. Internally, this uses
   * a shuffle to redistribute data.
   *
   * If you are decreasing the number of partitions in this RDD, consider using `coalesce`,
   * which can avoid performing a shuffle.
   *
   * TODO Fix the Shuffle+Repartition data loss issue described in SPARK-23207.
   */
  def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
    coalesce(numPartitions, shuffle = true)
  }

这个算子前后是一个宽依赖，字面就是重新分区的意思，与coalesce不同，repartition一定会将分区变成numPartitions个的！通过看源码可知，它底层时调用的coalesce算子，并且使用该算子一定会shuffle。
coalesce与repartition怎么使用

到此，关于“coalesce与repartition怎么使用”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注创新互联网站，小编会继续努力为大家带来更多实用的文章！

分享题目：coalesce与repartition怎么使用
转载注明：http://cdkjz.cn/article/pdjicc.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

业务热线：400-028-6601 / 大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

四川服务器托管响应式网站建设古蔺网站建设成都茶叶销售宜宾网站建设成都网站维护盐亭网站建设成都定制高级网站建设成都服务器租赁成都网站改版

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询400-028-6601

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

coalesce与repartition怎么使用

coalesce

一、功能介绍

二、使用及注意事项

三、总结

repartition

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

业务热线：400-028-6601 / 大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

coalesce与repartition怎么使用

coalesce

一、功能介绍

二、使用及注意事项

三、总结

repartition

相关资讯

关于sap系统物料档案的信息

关于sap系统批量查发货单的信息

win服务器安全日志 服务器日志安全性

php大数据画线 php怎么处理大数据

java居酷跑类源代码 天天酷跑java源代码

windows网站服务器安全设置 win10 网站服务器

用户定义函数c语言 用户定义的函数

服务器安全狗360 服务器安全狗多少钱

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

业务热线：400-028-6601 / 大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

win服务器安全日志服务器日志安全性

java居酷跑类源代码天天酷跑java源代码

用户定义函数c语言用户定义的函数

业务热线：400-028-6601 / 大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接