- 一、大数据概述
- 1.1 数据的产生与发展
- 1.2 大数据的基础知识
- 1.3 大数据架构
一、大数据概述 1.1 数据的产生与发展
| when | who | what |
|---|---|---|
| 2003年 | Google File System | |
| 2005年 | Yahoo | Hadoop |
| 2008年 | CCC | 《大数据计算:在商务、科学和社会领域创建革命性突破》 |
| 2009年 | AMPLab | Spark |
| 2011年 | 麦肯锡 | 《大数据:创新、竞争和生产力》 |
| 2012年 | 世界经济论坛 | 《大数据,大影响》 |
| 2015年 | 国务院 | 《促进大数据发展行动纲要》 |
| 2016年 | 党中央 | 《大数据“十三五”规划》 |
1.一定的Java知识
2.Linux的基本操作
| Hadoop核心 | 详细介绍 |
|---|---|
| HDFS | 分布式文件系统,用于对大型文件的处理和拆分,为构建大规模集群和高可用的文件处理打下基础 |
| MapReduce | 分布式数据处理和执行环境,用于对大规模数据集进行运算 |
| Hive | 基于hadoop的一个数据仓库工具,可将结构化的数据文件映射为数据库表,并提供简单SQL查询功能,可以将SQL转化为MapReduce进行运算 |
| Hbase | 分布式的、面向列的开源数据库,它适合于类似大数据的非结构化的数据存储的数据库 |
| Sqoop | 一款开源的数据传输工具,主要用于在Hadoop与传统的数据库间数据的传递 |
| Flume | 由Cloudera提供的一个高可用、高可靠,分布式的海量日志采集、聚合和传输的系统 |
| Spark核心 | 详细介绍 |
|---|---|
| RDD | 弹性分布式数据集,是分布式内存的抽象概念,它提供了高效的数据流处理 |
| Spark SQl | 它是用来处理结构化数据的Spark组件,提供了Dataframes的可编程抽象模型,可视为分布式的SQL查询引擎 |
| Spark Streaming | 它是基于Spark核心的流式计算的拓展,具有高吞吐量和容错能力强的特点 |
| MLlib | 一个Spark的扩展的机器学习库,包括通用的学习算法和工具 |
| KafKa | 一种高吞吐量、分布式的发布订阅消息系统,它可以处理消费者规模消息的数据 |



