栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

项目流程以及Spark初始

项目流程以及Spark初始

  • 做项目基本流程
    • 3、串联整个流程即标准化及正式上线
    • 2、解决关键性问题
    • 1、梳理数据流程
    • 解决关键性问题
      • 对比差异点
        • 1、数据的文件组织形式不同
        • 2、数据的数据格式不同
      • 相同点
        • 数据流程一样
        • 数据目标也是一样
    • 曝光
      • Exposure
    • 广告领域专业术语
      • Pv:page visit,曝光一次即为一个pv。
      • Uv: uniq visit,或者叫user visit,
        • 即用户去重后的统计。 
  •  Spark的背景、定义、特点
    • 背景
      • MapReduce计算和磁盘交互
      • Spark计算和内存交互
      • Spark速度远远快于MapReduce
      • MapReduce,在机器学习、图计算等方面支持有限,性能效率表现比较差。
  • Spark Core:
    • 包含Spark的基本功能;尤其是定义RDD(弹性分布式数据集,resilient distributed dataset)的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的
  • spark1.x与2.x的优缺点对比
    • 优点
      • API抽象更高级、更统一,包括在spark-core,sparksql,sparksession等方面,学习更简单,开发效率更高,执行效率综合提升明显。
      • 统一Dataframes和DataSets为DataSets,API进行了全部统一,简化学习和编程复杂度。
      • 基本定位是低层API编程延用RDD,高级API编程均为DataSets,而大多数情况下用DataSets均可以解决问题。
      • spark-streaming基于spark sql进行了API更高级抽象,即structured streaming(结构化流式编程),易用性和性能提高。
      • 对诸多组件中的旧的rdd计算逻辑用Dataframe或DataSet进行了重写优化,并扩充了更多的算法。
    • 缺点
      • 对以前版本不是完全兼容,只是绝大部分兼容。
      • 相对于1.6.x来讲,稳定性略差, bug不断。
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/443502.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号