1.大数据的背景
背景:2010年物联网迅速发展,大量底层数据。
大数据的发展历程
| 时间 | 阶段 |
| 上世纪90年代至上世纪末期 | 萌芽阶段 |
| 本世纪前十年 | 成熟期 |
| 2010年以后 | 大规模应用期 |
2.大数据的概念和影响
特性“4V”
- 数据分结构化和结构化数据(非结构化较多)
- 及时性,秒级查询
- 价值密度低,商业价值高
新的模式(未来可能以数据为驱动)
全样而非抽样(以前是抽样数据分析,现在可以全面分析)
相关而非因果
3.大数据的应用
影视作品的投拍有风险(大数据投拍——美国《纸牌屋》)
传统流感预测方式(用户数据)
……
4.大数据的关键技术
数据存储管理
数据处理与分析
分布式存储
分布式处理
计算模式
批处理mapreduce、spark
流计算(实时性)
图计算Google Pregel
查询分析计算
| 大数据计算模式 | 解决问题 | 代表产品 |
| 批处理计算 | 大规模数据批量处理 | MapReduce、Spark…… |
| 流计算 | 针对流数据的实时计算 | storm、s4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台…… |
| 图计算 | 针对大规模图结构数据的处理 | Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrd…… |
| 查询分析计算 | 大规模数据的存储管理和查询分析 | Dremel、Hive、Clasandra、lmpala…… |
大数据、云计算、物联网的关系
5.云计算
云计算:解决两大问题:分布式存储和分布式处理
特点:虚拟化、多用户
通过网络服务提供廉价的服务
公有云、私有云、混合云
IaaS:基础设施即服务
PaaS:平台即服务
SaaS:软件即服务;salesforce
虚拟化、多用户、分布式存储、分布式储存
| Hadoop |
| Linux |
| 虚拟机 |
| Windows |
| 硬件 |
云计算的数据中心
类似你丢百度云,在百度的各地数据中心(一个30/50亿)。
数据中心耗能非常大,一天30万电费
55%空调制冷……45%设备
45%设备的70%内部风扇……30%cpu
30%cpu的90%闲置……10%计算
政务云……
6.物联网
| 应用层 | 智能应用 |
| 处理层 | 数据处理平台 |
| 网络层 | 各类网络,信息传输通道作用 |
| 感知层 | 摄像头,传感器 |
实例:智能公交……
关键技术:识别技术、感知技术
识别:给物体贴标签,条形码,二维码(矩阵)
RFID:切割磁线产生电流……
大数据前身云计算
云计算为大数据提供技术支持
大数据为云计算提供用武之地
云计算为物联网提供海量数据存储能力
物联网为云计算技术提供广阔的应用空间
物联网是大数据的重要来源
大数据技术为物联网数据分析提供支撑
第二章Hadoop1.Hadoop简介
Apache的开源项目,hadoop是java语言开发的,具有良好跨平台的特性。
hadoop具有高扩展性,多副本机制,低成本
机器集群,各种低端机,构建集群,应用于linux平台,支持多种语言开发
应用现状:facebook……
数据源+HDFS分布式文件存储+分析MR(Hive、Pig)、查询Hbase(Solr、Redis)、
挖掘Mahout
hadoop的版本
阿帕奇版本版本
1.0
2.0 YARN HDFS缺陷:扩展性差,NN Federation解决、HA
clodera、Hortonworks
MapR、星环
……
很多版本
如何选择:
是否开源、是否免费、是否有实践检验、是否有社区支持、性能……
Hadoop生态圈
hadoop的项目结构
| 框架名称 | 功能 |
| HDFS | 分布式文件系统 |
| YARN | 资源管理和框架调度 |
| MapReduce | 离线计算(基于磁盘) |
| Tez | DAG计算(有向无环图) |
| Spark | 内存计算 |
| Hive | 数据仓库 |
| Pig | 流数据处理,提供类似于SQL的查询语言Pig Latin(轻量化) |
| Oozie | 作业流调度系统 |
| Zookeeper | 分布式功能协调调度 |
| Hbase | 非关系型分布式数据库,实时应用 |
| Flume | 日志收集 |
| Sqoop | 数据转换(如:SQL数据转换到Hadoop平台;反之亦然),HDFS、Hbase、Hive数据互导 |
| Ambari | 安装部署工具 |
具体如下图:
hadoop平台的搭建
1.linux的安装
VMware虚拟机
1-7安装
1
2
3
4
5
6
7
完成后开启,开启后一般时间较长
2.



