如果想知道关系,可以直接跳转到1.4节
大数据概念及组件介绍- 一、大数据概念与特性
- 1.1 大数据的概念
- 1.2 大数据的特性
- 1.3 大数据的关键技术
- 1.4 大数据计算模式及其工具
- 1.4.1 大数据计算模式
- 1.4.2 大数据计算工具介绍
- 1.4.2.1 Hadoop
- 1.4.2.2 Spark
1.2 大数据的特性大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):
- Volume(大量)
- Velocity(快速话)
- Variety(多样化)
- Value(低价值密度)
- Veracity(真实性)
大数据技术的不同层面及其功能,不同层面及其功能如下:
两大核心技术:(1)分布式储存。 (2)分布式处理
不同的大数据工具呈现的作用不同,具体大数据模式与产品如下图所示:
| 大数据计算模式 | 解决问题 | 代表产品 |
|---|---|---|
| 批处理计算 | 针对大规模数据的批量处理 | Map Reduce、 Spark等 |
| 流计算 | 针对流数据的实时计算 | Storn、S4、 Flume、 Streams、Puma、 Dstream、 Super Mario、银河流数据处理平台等 |
| 图计算 | 针对大规模图结构数据的处理 | Pregel、 Graphx、 Giraph、Powergraph、Hama、Goldenorb等 |
| 查询分析计算 | 大规模数据的储存管理和查询分析 | Dremel、Hive、 Cassandra、Impala等 |
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。
- HDFS为海量的数据提供了存储。
- MapReduce则为海量的数据提供了计算
Hadoop生态系统如下:
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
Spark架构图如下:
Spark生态系统如下:
Spark会取代Hadoop吗?
答:不完全会。Hadoop包括两大核心:HDFS和 MapreduceSpark作为计算框架,与 Mapreduce是对等的。
谈到““取代”, Spark应该是取代 Mapreduce,而不是整个 HadoopSpark和 Hadoop生态系统共存共荣, Spark借助于 Hadoop的HDFS、 Hbase等来完成数据的存储,然后,由 Spark完成数据的计算



