spark2.x由浅入深深到底系列七之python开发spark环境配置-快上网网站建设公司

spark2.x由浅入深深到底系列七之python开发spark环境配置

学习spark任何的技术前，请先正确理解spark，可以参考: 正确理解spark

在会泽等地区，都构建了全面的区域性战略布局，加强发展的系统性、市场前瞻性、产品创新能力，以专注、极致的服务理念，为客户提供成都做网站、网站建设、外贸营销网站建设网站设计制作按需网站策划,公司网站建设,企业网站建设,成都品牌网站建设,成都全网营销,成都外贸网站建设,会泽网站建设费用合理。

以下是在mac操作系统上配置用python开发spark的环境

一、安装python

spark2.2.0需要python的版本是Python2.6+ 或者 Python3.4+

可以参考：

http://jingyan.baidu.com/article/7908e85c78c743af491ad261.html

二、下载spark编译包并配置环境变量

1、在官网中： http://spark.apache.org/downloads.html 下载版本为：spark-2.2.0-bin-hadoop2.6.tgz包

放到本地的某个盘中，然后解压。

2、设置环境变量：

cd ~

vi .bash_profile

export SPARK_HOME=/Users/tangweiqun/Desktop/bigdata/spark/spark-2.2.0-bin-hadoop2.6

export PATH=$PATH:$SCALA_HOME/bin:$M2_HOME/bin:$JAVA_HOME/bin:$SPARK_HOME/bin

source .bash_profile

3、需要对SPARK_HOME下的bin目录下的文件执行chmod 744 ./*，否则会报权限不足的错误

Window机器应该不用做这步

三、安装PyCharm

1、从官网： https://www.jetbrains.com/pycharm/download/中下载，然后傻瓜式安装

四、编写wordcount.py并运行成功

1、创建一个project

file --> New Project

2、给PyCharm配置PYTHONPATH

Run --> Edit Configurations，配置如下

spark2.x由浅入深深到底系列七之python开发spark环境配置

点上面的“+”，然后填上：

PYTHONPATH=/Users/tangweiqun/Desktop/bigdata/spark/spark-2.1.0-bin-hadoop2.6/python/:/Users/tangweiqun/Desktop/bigdata/spark/spark-2.1.0-bin-hadoop2.6/python/lib/py4j-0.10.4-src.zip

即将spark安装包中和python相关的依赖加上

3、py4j-some-version.zip和pyspark.zip加入到项目中

为了能看到源码，我们需要将项目关联源码，关联的方式如下：

spark2.x由浅入深深到底系列七之python开发spark环境配置

点击+ Add Content Root将/Users/tangweiqun/Desktop/bigdata/spark/spark-2.1.0-bin-hadoop2.6/python/lib下的两个zip包加进去

4、编写spark word count，然后运行成功

创建一个python文件wordcount.py，内容如下：

from pyspark import SparkContext, SparkConf

import os
import shutil

if __name__ == "__main__":
    conf = SparkConf().setAppName("appName").setMaster("local")
    sc = SparkContext(conf=conf)

    sourceDataRDD = sc.textFile("file:///Users/tangweiqun/test.txt")

    wordsRDD = sourceDataRDD.flatMap(lambda line: line.split())

    keyValueWordsRDD = wordsRDD.map(lambda s: (s, 1))

    wordCountRDD = keyValueWordsRDD.reduceByKey(lambda a, b: a + b)

    outputPath = "/Users/tangweiqun/wordcount"
    if os.path.exists(outputPath):
        shutil.rmtree(outputPath)

    wordsRDD.saveAsTextFile("file://" + outputPath)

    print wordCountRDD.collect()

右击运行成功

详细且系统的了解spark core RDD相关的Api可以参考：spark core RDD api原理详解

新闻标题：spark2.x由浅入深深到底系列七之python开发spark环境配置
链接分享：http://cdkjz.cn/article/ihioch.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

spark2.x由浅入深深到底系列七之python开发spark环境配置

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

spark2.x由浅入深深到底系列七之python开发spark环境配置

相关资讯

jquery没用 jqueryappend没有效果

mysql4.0怎么用 mysql56怎么用

android选择相机 android拍照或从相册选择

mysql建完表怎么填值 mysql数据表建立

js选项卡jquery js选项卡切换显示与隐藏

android有前途 android发展前景

html加入css样式 html加入css的方法

mysql怎么打开ddl mysql怎么打开已经创建的数据库

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接