栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

数分-理论-大数据8-总结

数分-理论-大数据8-总结

数分-理论-大数据8-总结

(数据分析系列)

文章目录

数分-理论-大数据8-总结

1知识点2具体内容

2.1框架综述2.2发展简史

2.2.1萌芽(2003-2008)2.2.2快速进展(2009-2014)2.2.3成熟(2015-)2.2.4大数据分析引擎 2.3结语 3参考

1知识点

框架综述发展简史结语 2具体内容 2.1框架综述

大数据框架在总体上分为存储引擎和计算分析引擎

存储引擎通常用来存储海量数据分析引擎通常用来分析海量数据

2.2发展简史

2.2.1萌芽(2003-2008)

Google“三驾马车”:

MapReduce:开源分布式并行计算框架BigTable:大型的分布式数据库GFS:Google的分布式文件系统

Hadoop,包括HDFS文件存储系统和MapReduce计算引擎。

MapReduce:主要解决可扩展性和容错性问题,从而可以通过使用简单的API,专注于大数据处理。其缺点是抽象层次太低,不便于工作流的编写。FlumeJava:主要解决MapReduce抽象层次太低的问题,解决单个MapReduce无法满足复杂业务场景的问题,专注自动优化编写的逻辑管道。 2.2.2快速进展(2009-2014)

1.spark

内存计算,提高了速度;引入RDD概念,数据可重放,实现一致性;RDD的抽象概念,使数据流的处理很方便,代码编写简单。缺点:Spark Streaming的实时计算,是伪实时、mini-batch的,不能真正覆盖实时应用的场景。

2.storm

event级别实时计算,毫秒级低延迟,能满足实时需求较低的一致性保证;无状态;不支持SQL。提出Lambda架构(即离线计算+实时计算的架构) 2.2.3成熟(2015-)

1.dataflow

抽象出一个具有足够普遍性和灵活性的模型,通过执行引擎的选择,转换为延迟程度和处理成本之间的选择The Dataflow Model
2.Flink:流式处理Flink不同于Spark的批处理(batch processing),它主要用于数据的流处理(streaming processing)将输入看做一条stream,将函数应用到stream上,再进行输出底层是流式处理,上层也是基于流式处理构建的batch,通过记录流式处理的start point,以及维护运行过程中的state实现一个窗口的batch处理 2.2.4大数据分析引擎

    改进编程模型,让我们用更简单的API,写出更复杂的业务处理逻辑;提高处理效率,效率必然是不可缺少的;扩大解决的问题领域,一个处理引擎,能够处理更多的业务场景,意味着更少的维护成本、更少的集群投入、更简单的架构。
2.3结语

大数据概念大数据处理架构Hadoop分布式文件系统HDFS分布式数据库Hbase分布式并行编程模型MapReduce数据仓库Hive大数据框架Spark 3参考

https://github.com/shenhao-stu/Big-Data/

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/721286.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号