栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

spark 算子

spark 算子

课堂回顾:

  1. maven构建spark开发环境与测试
    1. 引入winutils
    2. 配置spark-core依赖
    3. Scala实现spark Wordcount 代码编写
    4. Spark wordcount 打包部署
    5. 上传运行
  2. Spark常用算子
    1. 什么是算子
    2. 算子的重要作用
    3. 算子分类
      • 转换算子
        1. Value型转换算子:其处理的数据项是value型
        2. Key-value型转换算子:其处理的数据是key-value型
      • 行动算子
        1. foreach算子:无输出
        2. saveAsTextFile算子:保存为文本文件
        3. saveAsObjectFile算子:保存为对象
      • 常用算子分析与应用
        1. Map
        2. flatMap
        3. mapPartitions
        4. Glom
        5. union算子
        6. groupBy算子
        7. filter算子
        8. distinct算子
        9. cache算子
      • Key-value转换型算子
        1. mapValues算子
        2. combineByKey算子
        3. reduceByKey算子
        4. join算子
      • 行动算子:此种算子会触发sparkContext提交作业。触发了RDD DAG的执行
        1. 无输出型:不落到文件或是hdfs的作用
          1. foreach算子
        2. HDFS输出型
          1. saveAsTestFile算子
        3. Scala集合和数据类型
          1. collect算子
          2. collectAsMap算子
          3. lookup算子
          4. reduce算子
          5. fold算子

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/581403.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号