再度学习大数据技术与应用（厦门大学林子雨）

再度学习大数据技术与应用（厦门大学林子雨） 4V概念

大数据 -结构化数据与非结构化数据组成

数据量大
处理速度快（秒级决策）
价值密度低商业价值高

大数据概念和影响

以数据为驱动去发现和解决问题，颠覆传统的方式
全样非抽样
精度非效率
相关非因果

大数据的应用

纸牌屋的拍成电视剧-大数据应用
谷歌的预测流感

大数据的关键技术

1.数据存储
分布式存储
google 技术

2.数据处理
分布式处理
不同的需要：

批处理

   mapreduce / spark

实时计算

流计算（实时） S4

图计算

   Pregel Graphx

交互式计算（查询计算）

google Dremel hive

大数据与云计算

 **虚拟化与按需服务**
 公有云
 私有云
 混合云
 **三个层次：**
 Iaas Paas Saas

二大数据处理架构 hadoop

apache 项目
使用java语言开发的
两大核心源于谷歌提供的技术
HDFS + Mapreduce
高可靠性
高效性集群
高扩展性
高容错性
成本低
High performance computing

数据分析实时查询数据挖掘

2.2 hadoop 项目结构

HDFS 分布式文件存储
YARN 资源管理和调
度
MapReduce 离线处理
Tez （DAG 有向图计算，运行在yarn上面，查询处理框架）
sprk 在内存中进行计算加快数据读取计算速度
Hive 数据仓库用于企业决策分析大量历史数据
将SQL语句转化为Mapreduce作业
pig 流数据处理

pig 简化处理使用一条语句代替多条mapreduce语句
Oozie 作业流调度系统

Zookeeper 分布式协调服务

分布式锁
集群管理
Hbase Hadoop上非关系型分布式数据库
Flume 日志收集分析
Sqoop 用于在Hadoop与传统数据库之间进行数据传输
Ambari 部署工具

2.3 Linux与Hadoop的安装

用
workstation 12（以上版本） + unbantu 16.04-destop-am 版本（用高的版本极大概率会出现 mysql等诸多软件版本不兼容的情况，太多报错问题，不要问我为什么知道）
workstation教程自己百度

从优麒麟传送门网址官网上找到16.04的版本

下载完成后使用workstation开始创建新的虚拟机

创建典型就可以
使用光盘映像文件 ubantukylin-16.4版本（图片版本请忽略）
设置名字账号密码相关内容
虚拟机名称
设置大小建议为40或者更大，设置为单个文件方便删除
完成安装，安装虚拟机，确认硬件相关，优麒麟相关的内容耗费时间比较长。

2.3.2接Hadoop安装

安装hadoop3.1.3步骤传送门

2.4 Hadoop集群的部署和使用

为了照顾作业完成部署集群

集群硬件配置 NameNode 与 DataNode
NameNode相当于目录
datanode 存储数据

MapReduce作业
jobTracker 对整个作业拆分处理多个小作业然后协调处理
taskTracker部署在不同的机器上对小作业，对于JobTracker布置的小作业进行跟踪和执行

Secondary冷备份

大部分机器是 Datanode与 TaskTracker进行数据处理，需要配置如下

NameNode 总管家管理各种元数据并提供服务，很多数据保存在内存中。

所需要的配置更高

Hadoop集群工作状态
集群的搭建原则

集群的网络拓扑
机架之间连接，机架之间连接

在云平台上部署服务

再度学习大数据技术与应用（厦门大学林子雨）

大数据系统相关栏目本月热门文章