资讯

精准传达 • 有效沟通

从品牌网站建设到网络营销策划,从策略到执行的一站式服务

Python搭建Spark分布式集群环境-创新互联

前言

成都创新互联公司-专业网站定制、快速模板网站建设、高性价比西乡网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式西乡网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖西乡地区。费用合理售后完善,十多年实体公司更值得信赖。

Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装。


本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群。

安装Hadoop并搭建好Hadoop集群环境


Spark分布式集群的安装环境,需要事先配置好Hadoop的分布式集群环境。

安装Spark

这里采用3台机器(节点)作为实例来演示如何搭建Spark集群,其中1台机器(节点)作为Master节点,另外两台机器(节点)作为Slave节点(即作为Worker节点),主机名分别为Slave01和Slave02。


在Master节点机器上,访问Spark官方下载地址,按照如下图下载。


下载完成后,执行如下命令:

sudo tar -zxf ~/下载/spark-2.0.2-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-2.0.2-bin-without-hadoop/ ./spark
sudo chown -R hadoop ./spark

新闻名称:Python搭建Spark分布式集群环境-创新互联
浏览路径:http://cdkjz.cn/article/cocgcj.html
多年建站经验

多一份参考,总有益处

联系快上网,免费获得专属《策划方案》及报价

咨询相关问题或预约面谈,可以通过以下方式与我们联系

大客户专线   成都:13518219792   座机:028-86922220