栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

RDD编程基础

RDD编程基础

RDD创建
  • 从文件系统中加载
  • 通过并行集合(数组)
从文件系统中加载

  • 本地文件系统

  • HDFS
    使用方法
  • 云端
通过并行集合(数组)

使用方法


RDD操作(转换)


转换类型操作:只记录转换的轨迹,不发生计算。

常用转换操作

  • filter:筛取关键词

  • map




    拆分空格

  • flatMap


    所有单词的集合

  • groupByKey

  • reduceByKey

RDD操作(行动)
  • count
  • collect
  • first
  • reduce
  • foreach:遍历
持久化

重复使用,缓存到内存
persist():将一个RDD标记为持久化(并未生成执行,执行动作类型操作后真正持久化)

  • MEMORY_onLY = cache
    内存不足,替换内容

  • MEMORY_AND_DISK
    内存不足存放磁盘

unpersist():释放

分区
  • 增加并行度,实现分布式计算
  • 减少通信开销

分区原则:分区个数 = 集群中CPU核心个数
语法


自定义分区方法

  • 继承org.apache.spark.Partitioner
  • numPartitions:Int 返回创建出来的分区数
  • getPartition(key:Any):Int 返回给定键的分区变化(0—numPartitions-1)
  • equals()判断相等性

    键值对



    取出12345…
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/672820.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号