Spark下的词频计数是怎样进行的-快上网网站建设公司

Spark下的词频计数是怎样进行的

Spark下的词频计数是怎样进行的，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

专注于为中小企业提供网站设计、成都网站设计服务,电脑端+手机端+微信端的三站合一,更高效的管理,为中小企业叠彩免费做网站提供优质的服务。我们立足成都，凝聚了一批互联网行业人才，有力地推动了超过千家企业的稳健成长，帮助中小企业通过网站建设实现规模扩充和转变。

安装 Spark

下载 Spark 1.52 Pre-Built for hadoop 2.6 http://spark.apache.org/downloads.html。还需要预装 Java，Scala 环境。
将 Spark 目录文件放到 /opt/spark-hadoop 下，运行 ./spark-shell 会出现连接 Scale 窗口;运行 ./python/pyspark 会出现连接 Python 的窗口。这表示安装成功。
将 python 目录下 pyspark 复制到 Python 安装目录 /usr/local/lib/python2.7/dist-packages。这样才可以在程序中导入pyspark 库。

测试

#!/usr/bin/python
# -*- coding:utf-8 -*-

from pyspark import SparkConf, SparkContext
import os

os.environ["SPARK_HOME"] = "/opt/spark-hadoop"

APP_NAME = "TopKeyword"

if __name__ == "__main__":

    logFile = "./README.md"
    sc = SparkContext("local", "Simple App")
    logData = sc.textFile(logFile).cache()

    numAs = logData.filter(lambda s: 'a' in s).count()
    numBs = logData.filter(lambda s: 'b' in s).count()

    print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

打印结果

Lines with a: 3, lines with b: 2

词频计数

#!/usr/bin/python
# -*- coding:utf-8 -*-

from pyspark import SparkConf, SparkContext
import os
import sys

reload(sys)
sys.setdefaultencoding("utf-8")

os.environ["SPARK_HOME"] = "/opt/spark-hadoop"


def divide_word():
    word_txt = open('question_word.txt', 'a')

    with open('question_title.txt', 'r') as question_txt:
        question = question_txt.readline()
        while(question):
            seg_list = jieba.cut(question, cut_all=False)
            line = " ".join(seg_list)
            word_txt.write(line)
            question = question_txt.readline()
    question_txt.close()
    word_txt.close()


def word_count():
    sc = SparkContext("local", "WordCount")
    text_file = sc.textFile("./question_word.txt").cache()
    counts = text_file.flatMap(lambda line: line.split(" ")) \
             .map(lambda word: (word, 1)) \
             .reduceByKey(lambda a, b: a + b)
    counts.saveAsTextFile("./wordcount_result.txt")

if __name__ == "__main__"
    word_count()

关于Spark下的词频计数是怎样进行的问题的解答就分享到这里了，希望以上内容可以对大家有一定的帮助，如果你还有很多疑惑没有解开，可以关注创新互联行业资讯频道了解更多相关知识。

网站栏目：Spark下的词频计数是怎样进行的
文章出自：http://cdkjz.cn/article/poicpe.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Spark下的词频计数是怎样进行的

安装 Spark

测试

词频计数

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

业务热线：400-028-6601 / 大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Spark下的词频计数是怎样进行的

安装 Spark

测试

词频计数

相关资讯

RHEL4DDNS更新技巧是什么

Ubuntu无法联网问题怎么解决

怎么将PPT文件进行压缩

Python-函数式编程介绍(上）

解决mongodb服务启动不了的问题

MySQL中怎样导入sql文件

Golang中的int类型和uint类型到底有多大？

window下搭建gitlib的方法

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

业务热线：400-028-6601 / 大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

业务热线：400-028-6601 / 大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接