资讯

精准传达 • 有效沟通

从品牌网站建设到网络营销策划,从策略到执行的一站式服务

如何理解sparkonyarn内存分配

如何理解spark on yarn内存分配,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。  

创新互联主要从事网站设计制作、成都网站设计、网页设计、企业做网站、公司建网站等业务。立足成都服务老边,十年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:18982081108

1. 基础概念
要掌握这个知识点,要了解以下几个点:
  1. spark driver和executor的on-heap内存是如何配置的。
  2. spark driver和excutor的off-heap内存是如何配置的。
  3. yarn的最小调度单元。
首先,讲一下上面的这三个概念吧:
1). spark.driver.memory
默认值1g。driver进程的on-heap内存,driver进程就是sparkcontext初始化所在的进程。在client模式下driver的堆内存,不要通过SparkConf设置,要用--driver-memory命令替换,或者在默认的配置文件里配置。
2). spark.driver.memoryOverhead
默认值是max(DriverMemory*0.1,384m)。在YARN或者kubernetes模式的cluster模式下,driver端申请的off-heap内存的总量,通常是driver堆内存的6%-10%。
3). spark.executor.memory
默认值1g。Executor的jvm内存总量。
4). spark.executor.memoryOverhead
默认值max(executor*0.1,384).单个executor申请的off-heap内存的总量。该参数仅仅支持在yarn或者kubernetes上使用,通常可以是executor内存的0.06-0.1。
5).spark.yarn.am.memory
默认值512m,Appmaster在client模式下的内存。假如是Cluster模式下会使用spark.driver.memory来代替。
6).Yarn的最小调度单元
yarn调度container有个最小粒度,资源调度的时候必须是其整数倍,最小粒度的配置参数是
   
     
   
   
   yarn.scheduler.minimum-allocation-mb
最小调度单元默认值是1024,单位是mb。
2.cluster模式
浪尖这里的案例是40个executor,单个executor内存申请的时候是20GB,driver是20GB,yarn的web ui截图如下:
如何理解spark on yarn内存分配
整个APP申请的总内存是 923648MB=902GB。
spark app申请的单个 Executor内存,从1.3和1.4可以得知是:

   
     
   
   
   20GB * 0.1 +20GB=22GB
那么40个executor内存是:  

   
     
   
   
   22GB * 40 = 880GB
spark on yarn 的cluster模式下Driver端与appmaster是在一起的,所以appmaster内存参数无效,因此driver和executor总内存由1.1和1.2可得:
20GB * 0.1 +20GB=22G
那么计算所得的总内存是:
   
     
   
   
   22GB+88 GB正好是 902GB。
上面计算的案例中,由于浪院长这里的yarn集群内存调度的最小粒度是1GB貌似,在上面的计算中没有参与度。
3.cluster模式下

此时假设是10个executor,每个executor的内存是19GB,driver的内存依然是19GB。
首先,我们先看一下,web ui的总内存:
如何理解spark on yarn内存分配
换算成GB就是236544MB/1024 = 231GB
那么经计算可以指导单个executor的内存是:
19*1.1GB =20.9GB
Yarn的最小调度单元是1GB,所以单个executor调度的时候内存是21GB。
10个executor的总内存就是 21 *10 = 210GB
经计算可以得到driver的内存是19*1.1GB= 21GB
那么计算所得的spark app内存和 yarn ui上所得内存一致。
4.注意点
上述计算要想正确要确保:
没有开启动态executor申请与释放,假设开启了,要视情况计算。

看完上述内容,你们掌握如何理解spark on yarn内存分配的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注创新互联行业资讯频道,感谢各位的阅读!


本文题目:如何理解sparkonyarn内存分配
文章路径:http://cdkjz.cn/article/ppejso.html
多年建站经验

多一份参考,总有益处

联系快上网,免费获得专属《策划方案》及报价

咨询相关问题或预约面谈,可以通过以下方式与我们联系

业务热线:400-028-6601 / 大客户专线   成都:13518219792   座机:028-86922220