spark调优该怎么理解-快上网网站建设公司

spark调优该怎么理解

spark调优该怎么理解，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

创新互联-专业网站定制、快速模板网站建设、高性价比淮上网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式淮上网站制作公司更省心,省钱,快速模板网站建设找我们，业务覆盖淮上地区。费用合理售后完善，10余年实体公司更值得信赖。

Data Serialization

spark现在提供Java serialization和Kryo serialization库

Java serialization比较慢，Kryo serialization比较快

Memory Tuning

Determining Memory Consumption

衡量你的数据集消耗内存量最好的方式是创建RDD，并放入cache中，通过查看你的driver程序SparkContext logs来得出结论。

Tuning Data Structures

降低内存消耗的第一种方式是避免使用增加开销的java特性，例如基于指针的数据结构和封装的对象。有几种方法来避免：

1.将你的数据结构设计为对象的数组，或者原始类型，而不是java或者scala集合类(例如HashMap)

fastutil库提供原始数据类型的方便集合类，并且这些类与java标准库兼容。（http://fastutil.di.unimi.it/）

2.如果可以的话，避免使用有很多小对象的内嵌数据结构

3.考虑使用数字id或者枚举对象来代替string作为key

4.如果给spark使用的内存少于32g，设置JVM flag -XX:+UseCompressedOops来使指针的大小从原来的8个byte变成4个byte.

你可以在spark-env.sh里添加这个参数。

Serialized RDD Storage

当你的对象通过调优高效地存储后仍然很大，一个简单的减少内存使用的方式是以序列化格式的方式存储对象，使用 RDD persistence API中序列化的等级来指定，例如MEMORY_ONLY_SER。

spark将每个RDD块存储为一个大的byte数组。将存储的数据序列化唯一的缺点是访问时间变慢了，这应归于服务器一直在忙碌于每个对象的反序列化。

如果你想在内存中以序列化格式保存数据，我们极力地推荐使用Kryo库，因为这会产生比java序列化小很多的文件大小。（当然会比没有序列化的原生java object更小）

关于spark调优该怎么理解问题的解答就分享到这里了，希望以上内容可以对大家有一定的帮助，如果你还有很多疑惑没有解开，可以关注创新互联行业资讯频道了解更多相关知识。

网页名称：spark调优该怎么理解
网页路径：http://cdkjz.cn/article/ipppce.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

spark调优该怎么理解

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

spark调优该怎么理解

相关资讯

ai中怎么弄艺术字,PPT怎么弄艺术字

织梦如何做成百度小程序,织梦百度小程序插件

cfg一台多少钱，玩cf配一台电脑要多少钱啊

如何泛绑定，怎样转换绑定

如何在百度里建网站，怎么在百度建立网页

如何让文字环绕图片，word怎么帮文字环绕图片

如何ps制作logo，用ps怎样做logo急用

如何取消手机密码设置，手机设置的指纹解锁怎么取消

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接