栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据技术原理与应用 第三版 林子雨 期末复习(五) 第十章 SPARK

大数据技术原理与应用 第三版 林子雨 期末复习(五) 第十章 SPARK

大数据技术原理与应用 第三版 林子雨 期末复习(五)第十章 SPARK
  • 简介
  • spark特点
  • spark与Hadoop对比
    • Hadoop缺点
    • spark优点
  • RDD
  • RDD概念
    • RDD间存在依赖关系分为宽依赖与窄依赖
    • RDD的两种常用操作

简介

spark是基于内存的大数据分布式并行计算框架,用于构建复杂的低延迟的数据分析应用

spark特点

运行速度快
容易使用
通用性好
运行模式多样

spark与Hadoop对比 Hadoop缺点

表达能力有限
磁盘IO开销大
延迟高

spark优点

spark计算模式属于MapReduce但是比MapReduce灵活
spark基于内存进行运算,所以计算速度快
spark具有基于DAG的任务调度执行机制,优于MapReduce迭代执行机制

RDD RDD概念

spark的核心建立在统一抽象的rdd之上,简单来说一个RDD就是一个分布式对象合集,本质上是一个只读的分区记录合集

RDD有两种操作转换与执行,在转换时不尽兴计算接受一个RDD返还也是一个RDD二行动操作则执行计算操作,接受一个RDD同时返还数值

RDD间存在依赖关系分为宽依赖与窄依赖

宽依赖:一对多
窄依赖:多对一、一对一

RDD的两种常用操作


本文及后续文章内容均由个人总结,仅用于复习记录,如发现错误请大家伙指正,侵删。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/680138.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号