Spark中的RDD核心操作有哪些-快上网网站建设公司

Spark中的RDD核心操作有哪些

本篇内容介绍了“Spark中的RDD核心操作有哪些”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

成都创新互联公司是一家专注于网站设计制作、成都网站制作与策划设计,三原网站建设哪家好?成都创新互联公司做网站,专注于网站建设十载,网设计领域的专业建站公司;建站业务涵盖:三原等地区。三原做网站价格咨询:18982081108

Q1:Spark中的RDD到底是什么？

RDD是Spark的核心抽象，可以把RDD看做“分布式函数编程语言”。
RDD有以下核心特征：

A list of partitions

A function for computing each split

A list of dependencies on other RDDs

Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)

Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

RDD中有两种核心操作：Transformation和Action，Transformation时只会记录对数据操作的元数据，Action时会对数据进行计算并产出结果。

Q2:Checkpoint和persist是什么类型的RDD呢？

RDD的Operation分为两类，transformation和action，其中transformation产生新的RDD，action产生新的数据。作为DAG的lineage对transformation进行存储，当action时执行lineage并产生数据。
checkpoint和persist是RDD比较特殊的两个操作， persist持久化RDD, checkpoint持久化RDD同时切断历史lineage。
Persist和checkpoint有违immutability的操作，它们实际上修改RDD meta info中的storage level和lineage，并返回修改过的RDD对象自身而非新的RDD对象.

Q3:Spark在运行的时候Driver程序运行在什么地方？

在Standalone的模式下Driver运行在提交Spark Application的客户端；
客户端能够提交Spark程序是应为安装了Spark；
Driver要负责程序的运行；

Q4:理解DAGScheduler对DAG Stage划分的诀窍是什么？

一般而言出现从外部读取数据、进行Shuffle操作和写数据的时候会成为Stage划分的边界；
Stage内部的操作是Pipeline的，可以极大的提高程序运行效率；
Shuffle是两个Stage的划分点；

Q5:如何理解Narrow Dependencies和Wide Dependencies？

Narrow Dependencies和Wide Dependencies构成了Spark Lineage；
Narrow Dependencies：例如map、filter、union、join with inputs co-partitioned;
Wide Dependencies:例如groupByKey、join with inputs not co-partitioned；
判断是Narrow Dependencies的关键就是左侧RDD Partition操作产出的结果是唯一右侧的RDD Partition；
判断是Wide Dependencies的关键就是左侧RDD Partition操作产出的结果是至少两个右侧的RDD Partitions；

“Spark中的RDD核心操作有哪些”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站，小编将为大家输出更多高质量的实用文章！

分享标题：Spark中的RDD核心操作有哪些
分享路径：http://cdkjz.cn/article/gidpoh.html

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Spark中的RDD核心操作有哪些

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Spark中的RDD核心操作有哪些

相关资讯

关于阿里云服务器系统初始化的信息

帝国cms能做响应式 帝国cms能做响应式嘛

域名交易行情怎么样 域名交易新闻

水星路由器连不上 水星路由器连不上网出现叹号

怎么做服务器安全防护 服务器如何做防护

阿里云服务器修改hosts 阿里云服务器修改ip

战网安全令服务器 战网安全令无法登陆

linux命令审计功能 linux审计日志哪里看

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

帝国cms能做响应式帝国cms能做响应式嘛

域名交易行情怎么样域名交易新闻

水星路由器连不上水星路由器连不上网出现叹号

怎么做服务器安全防护服务器如何做防护

战网安全令服务器战网安全令无法登陆

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接