栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

SparkCore之Partitiion

SparkCore之Partitiion

SparkCore之Partitiion

文章目录
  • SparkCore之Partitiion
    • 1.概念
    • 2.Spark Core的数据分区方式
      • 2.1.HashPartitioner
      • 2.2.RangePartitioner

1.概念

首先先了解一下Spark RDD,Spark RDD是一种分布式的数据集,但是由于数据量很大,因此要它被切分并存储在各个结点的分区当中,这个“分区”就是Partition-

  • RDD包含多个Partition
    • 如图RDD1就包含了4个Partition,RDD2包含了两个Partition

  • 分区Partition定义:
    • partition 是弹性分布式数据集RDD的最小单元
    • partition 是指的spark在计算过程中,生成的数据在计算空间内最小单元
    • 同一份数据(RDD)的partition 大小不一,数量不定,是根据application里的算子和最初读入的数据分块数量决定的
2.Spark Core的数据分区方式
  • HashPartitioner(哈希分区)
  • RangePartitioner(范围分区)
2.1.HashPartitioner
  • HashPartitioner采用哈希的方式对键值对数据进行分区
  • 分区规则
    • 公式:partitionId = Key.hashCode % numPartitions
    • 解释
      • partitionId代表该Key对应的键值对数据应当分配到的Partition标识
      • Key.hashCode表示该Key的哈希值
      • numPartitions表示包含的Partition个数
  • 缺点
    • 会带来分区数据不均衡的问题也就是分区倾斜
      • 因为可能出现很多数据通过公式全部都得到相同的partitionId,也就是在某些分区数据很多,但是其他分区数据相对较少
      • 这样会影响性能,举个极端的例子:当所有数据通过哈希分区结果全部都被划分到同一个分区,这就相当于没有分区了
2.2.RangePartitioner
  • 出现的原由
    • 目的是为了解决HashPartitioner所带来的分区倾斜问题
  • RangePartitioner基于抽样的思想来对数据进行分区
  • 如图
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/662765.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号