资讯

精准传达 • 有效沟通

从品牌网站建设到网络营销策划,从策略到执行的一站式服务

5.sparkcore之RDD编程-创新互联

spark提供了对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。RDD是一个分布式的数据集合,数据可以跨越集群中的多个机器节点,被分区并行执行。
在spark中,对数据的所有操作不外乎创建RDD、转化已有RDD及调用RDD操作进行求值。spark会自动地将RDD中的数据分发到集群中并行执行。

在江宁等地区,都构建了全面的区域性战略布局,加强发展的系统性、市场前瞻性、产品创新能力,以专注、极致的服务理念,为客户提供成都网站制作、成都网站建设 网站设计制作按需网站设计,公司网站建设,企业网站建设,品牌网站建设,成都全网营销推广,外贸网站制作,江宁网站建设费用合理。

五大特性

  • a list of partitions
    RDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的list;将数据加载为RDD时,一般会遵循数据的本地性(一般一个hdfs里的block会加载为一个partition)。
  • a function for computing each split
    RDD的每个partition中都会有function,即函数应用,其作用是实现RDD之间partition的转换。
  • a list of dependencies on other RDDs
    RDD会记录它的依赖,为了容错(重算,cache,checkpoint),即内存中的RDD操作出错或丢失时会进行重算。
  • Optionally,a Partitioner for Key-value RDDs
    可选项,如果RDD里面存的数据是key-value形式,则可以传递一个自定义的Partitioner进行重新分区,例如自定义的Partitioner是基于key进行分区,那则会将不同RDD里面的相同key的数据放到同一个partition里面。
  • Optionally, a list of preferred locations to compute each split on
    可选项,最优的位置去计算每个分片,即数据的本地性。

    创建RDD

    spark提供了两种创建RDD的方式:读取外部数据源、将驱动器程序中的集合进行并行化。

    并行化集合

    使用sparkContext的parallelize()方法将集合并行化。
    parallelize()方法第二个参数可指定分区数。spark会为每个分区创建一个task任务,通常每个cpu需要2-4个分区。spark会自动地根据集群大小设置分区数,也支持通过parallelize()方法的第二个参数手动指定。

    scala
    val data = Array(1, 2, 3, 4, 5)
    val distData = sc.parallelize(data)
    java
    List data = Arrays.asList(1, 2, 3, 4, 5);
    JavaRDD distData = sc.parallelize(data);
    python
    data = [1, 2, 3, 4, 5]
    distData = sc.parallelize(data)

    注:除了开发和测试外,这种方式用得不多。这种方式需要把整个数据集先放到一台机器的内存中。

    读取外部数据源

    spark可接入多种hadoop支持的数据源来创建分布式数据集。包括:本地文件系统、HDFS、Cassandra、HBase、Amazon S3等。
    spark支持多种存储格式,包括textFiles、SequenceFiles及其他hadoop存储格式。

    scala

    scala> val distFile = sc.textFile("data.txt")
    distFile: org.apache.spark.rdd.RDD[String] = data.txt MapPartitionsRDD[10] at textFile at :26

    java

    JavaRDD distFile = sc.textFile("data.txt");

    python

    >>> distFile = sc.textFile("data.txt")

RDD操作

RDD支持两种操作:转化操作和行动操作。
5.spark core之RDD编程

转化操作

RDD的转化操作会返回一个新的RDD。转化操作是惰性求值的,只有行动操作用到转化操作生成的RDD时,才会真正进行转化。
5.spark core之RDD编程
spark使用lineage(血统)来记录转化操作生成的不同RDD之间的依赖关系。依赖分为窄依赖(narrow dependencies)和宽依赖(wide dependencies)。

  • 窄依赖
    • 子RDD的每个分区依赖于常数个父分区
    • 输入输出一对一,结果RDD的分区结构不变,主要是map、flatMap
    • 输入输出一对一,但结果RDD的分区结构发生变化,如union、coalesce
    • 从输入中选择部分元素的算子,如filter、distinct、subtract、sample
  • 宽依赖

    • 子RDD的每个分区依赖于所有父RDD分区
    • 对单个RDD基于key进行重组和reduce,如groupByKey、reduceByKey
    • 对两个RDD基于key进行合并和重组,如join
      5.spark core之RDD编程

      行动操作

      行动操作则会向驱动器程序返回结果或把结果写入外部系统,会触发实际的计算。
      5.spark core之RDD编程

      缓存方式

      RDD通过persist方法或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。
      cache最终也是调用了persist方法,默认的存储级别是仅在内存存储一份。
      5.spark core之RDD编程
      Spark的存储级别还有好多种,存储级别在object StorageLevel中定义的。
      5.spark core之RDD编程
      缓存有可能丢失,RDD的缓存容错机制保证即使缓存丢失也能保证计算正确执行。通过基于RDD的一系列转换,丢失的数据会被重算,由于RDD的各个Partition是相对独立的,因此只需要计算丢失的部分即可,并不需要重算全部Partition。

      容错机制

      • Lineage机制

        • RDD的Lineage记录的是粗粒度的特定数据Transformation操作行为。当RDD的部分分区数据丢失时,可以通过Lineage来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型,限制了Spark的运用场合,所以Spark并不适用于所有高性能要求的场景,但同时相比细颗粒度的数据模型,也带来了性能的提升。

        • Spark Lineage机制是通过RDD的依赖关系来执行的

          • 窄依赖可以在某个计算节点上直接通过计算父RDD的某块数据计算得到子RDD对应的某块数据。

          • 宽依赖则要等到父RDD所有数据都计算完成后,将父RDD的计算结果进行hash并传到对应节点上之后才能计算子RDD。宽依赖要将祖先RDD中的所有数据块全部重新计算,所以在长“血统”链特别是有宽依赖的时候,需要在适当的时机设置数据检查点。
      • Checkpoint机制

        • 简介

          • 当RDD的action算子触发计算结束后会执行checkpoint;Task计算失败的时候会从checkpoint读取数据进行计算。
        • 实现方式(checkpoint有两种实现方式,如果代码中没有设置checkpoint,则使用local的checkpoint模式,如果设置路径,则使用reliable的checkpoint模式。)

          • LocalRDDCheckpointData:临时存储在本地executor的磁盘和内存上。该实现的特点是比较快,适合lineage信息需要经常被删除的场景(如GraphX),可容忍executor挂掉。

          • ReliableRDDCheckpointData:存储在外部可靠存储(如hdfs),可以达到容忍driver 挂掉情况。虽然效率没有存储本地高,但是容错级别最好。

忠于技术,热爱分享。欢迎关注公众号:java大数据编程,了解更多技术内容。

5.spark core之RDD编程

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


当前名称:5.sparkcore之RDD编程-创新互联
当前URL:http://cdkjz.cn/article/jdgdi.html
多年建站经验

多一份参考,总有益处

联系快上网,免费获得专属《策划方案》及报价

咨询相关问题或预约面谈,可以通过以下方式与我们联系

业务热线:400-028-6601 / 大客户专线   成都:13518219792   座机:028-86922220