目录
一、概念
二、主要解决
三、特征(4V)
四、应用场景
五、技术体系
1.数据采集
Sqoop
Flume
Kafka
2.数据存储
Hdfs
Hbase
Redis
Kafka
3.资源管理
YARN
4.通用计算
MapReduce
Spark Core
5.数据分析
Hive
Spark
Storm
Spark Streaming
Flink
6.任务调度
Azkaban
7.数据可视化
Superset
一、概念
传统数据处理应用软件不足以处理(存储和计算)它们的大而复杂的数据集。
二、主要解决
海量数据的存储和运算问题。
三、特征(4V)
容量大、种类多、速度快、价值高
1.容量(volume):数据的大小决定所考虑的数据的价值和潜在的信息
2.种类(variety):数据类型的多样性,包括:文本、图片、视频、音频
结构化数据:可以用二维数据库表来抽象,抽取数据规律;
半结构化数据:介于结构化和非结构化之前,主要指XML、HTML等;
非结构化数据:不可用二维表抽象,如:图片、图像、音频、视频等
3.速度(velocity):指获取数据的速度以及处理数据的速度
数据的生产呈指数式爆炸式增长;
处理数据要求的延时越来越低
4.价值(value):合理运用大数据,一低成本创造高价值
综合价值大,隐含价值大;
单条数据记录无价值,无用数据多
四、应用场景
待补充
五、技术体系
待补充细节



