网站建设 >

查看其它板块

Spark集群硬件配置推荐

计算与存储：

大多数Spark作业可能需要从外部存储系统（例如：Cassandra、Hadoop文件系统或HBase）读取输入数据，所以要让Spark计算引擎尽可能靠近数据持久层。
如果使用HDFS作为数据存储集群，可以在相同的集群上部署Spark集群，并配置Spark和Hadoop的内存和CPU使用率以避免干扰。我们的生产存储使用的是Cassandra集群，spark master 服务单独部署，其它节点同时部署：Cassandra + spark worker，保证spark worker 节点可以快速从本地读取数据进行计算汇总。

创新互联专业IDC数据服务器托管提供商，专业提供成都服务器托管，服务器租用，成都移动服务器托管，成都移动服务器托管，成都多线服务器托管等服务器托管服务。

磁盘：

虽然Spark可以在内存中执行大量的计算，但它仍然可能会使用本地磁盘来存储不适用于RAM的数据，建议每个节点配置4-8个磁盘，不需要配置RAID（磁盘阵列），磁盘成本越来越低，可以考虑配置ssd 硬盘，可以大幅提升性能。另外；在Linux中，使用noatime选项挂载磁盘，以减少不必要的写入操作。在Spark中，可以将spark.local.dir变量配置为多个本地磁盘的地址，多个地址之间以逗号分隔。

内存

建议为Spark分配的内存容量不大于机器总内存容量的75％；确保为操作系统和缓冲区留下足够的内存。根据业务特点评估需要多少内存。
请注意，当内存容量超过200GB时Java 虚拟机的性能表现会不稳定。如果您购买的RAM大于200G，则可以为每个节点运行多个worker JVM。在Spark的standalone模式下，您可以通过conf/spark-env.sh中的SPARK_WORKER_INSTANCES变量设置每个节点运行的worker进程数，以及通过SPARK_WORKER_CORES变量设置每个worker可用的cpu核心数。

网络

当数据已经存储在内存中时，很多Spark应用程序的性能瓶颈在于网络的传输速率。推荐最低使用10G的网络。

CPU

Spark运行汇总计算任务比较多，推荐配置更多的cpu核数，性能提升还是比较明显，推荐：每台机器至少配置8-16个核。可以根据Spark作业的CPU负载情况，进行配置调整。一旦数据已经在内存中，大多数应用程序的性能瓶颈在于CPU和网络。

参考文档

http://spark.apache.org/docs/latest/hardware-provisioning.html

网站标题：Spark集群硬件配置推荐
标题路径：http://cdkjz.cn/article/ghjooi.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

成都网站建设古巴雪茄成都网站设计南充做网站成都手机网站开发成都门户网站建设设计方案成都食品包装设计响应式网站成都发电机组维修保养公司成都资质代办

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Spark集群硬件配置推荐