从品牌网站建设到网络营销策划,从策略到执行的一站式服务
以下代码用 Pyspark + IPython 完成
统计日志空行的数量:
读取日志,创建RDD:
myrdd = sc.textFile("access.log")
不使用累加器:
In [68]: s = 0 In [69]: def f(x): ...: global s ...: if len(x) == 0: ...: s += 1 ...: In [70]: myrdd.foreach(f) In [71]: print (s)
得出结果为:
0
原因是python 的变量,即使是全局变量不能应用在各个计算进程(线程)中同步数据,所以需要分布式计算框架的变量来同步数据,Spark 中采用累加器来解决:
使用累加器
In [64]: s = sc.accumulator(0) In [65]: def f(x): ...: global s ...: if len(x) == 0: ...: s += 1 ...: In [66]: myrdd.foreach(f) In [67]: print (s)
得出正确结果:
14
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
咨询相关问题或预约面谈,可以通过以下方式与我们联系
成都网站建设公司地址:成都市青羊区太升南路288号锦天国际A座10层 建设咨询400-028-6601
成都快上网科技有限公司-四川网站建设设计公司 | 蜀ICP备19037934号 Copyright 2020,ALL Rights Reserved cdkjz.cn | 成都网站建设 | © Copyright 2020版权所有.
专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网! | 成都网站建设哪家好? | 网站建设地图