什么是大数据！！

day01大数据什么是大数据

海量数据文件 mysql 缓存数据

怎么进行大数据处理 hadoop

数据怎么存储 hadoop中的HDFS
数据怎么计算（增删改查）hadoop中的MR

大数据特点

Volume：数据量大，包括采集、存储和计算的量都非常大；

Variety：种类和来源多样化。包括结构化、半结构化和非结构化数据；

Value：数据价值密度相对较低，或者说是浪里淘沙却又弥足珍贵；

Velocity：数据增长速度快，处理速度也快，时效性要求高；

Veracity：数据的准确性和可信赖度，即数据的质量。

大数据的方向

etl（采集，清洗，转化，导入）数据仓库 hadoop的数据存储和计算

数据采集：埋点，爬虫

数据清洗：去除空数据或重复数据

数据转化：转化为对应的存储形式

数据存储：excle，mysql，hadoop

数据分析：

数据展示：BI

拓展

离线计算

hadoop mr

近实时计算

spark

实时计算

flink

分布式技术

数仓工具大部分都采用分布式技术

将应用或程序分别安装部署在不同的服务器上统一对外提供服务

应用分布式
存储分布式
计算分布式

集群

对外提供多个相同服务

zookeeper

分布式协调服务

在数仓领域的场景协调hadoop服务实现高可用

zookeeper特性

一致性
可靠性
顺序性
原子性
实时性

zookeeper机器节点---多个zookeeper服务之间的角色划分

leader--领导者角色负责管理维护多个zookeeper服务，leader基于内部算法选举产生，超过一般的服务同意则该服务就作为leader服务对外提供zk服务，leader主要处理事务请求（保存，更新，删除）
follower--跟随者角色处理获取数据请求，定时将当前状态告知给leader（心跳机制），参与选举过程
observer--观察者角色处理查询请求，不参选举过程

zookeeper数据节点---zookeeper存储数据时的数据模型

永久节点
顺序永久节点
临时节点
顺序临时节点

zookeeper配置下载安装包、解压

tar -zxvf zookeeper-3.4.6.tar.gz mv zookeeper-3.4.6 zookeeper

修改环境变量，可选操作

vi /etc/profile export ZOOKEEPER_HOME=/export/server/zookeeper export PATH=$PATH:$ZOOKEEPER_HOME/bin

source /etc/profile

修改Zookeeper配置文件

cd zookeeper/conf mv zoo_sample.cfg zoo.cfg

vi zoo.cfg 添加内容： dataDir=/export/data/zkdata

最后一行添加

server.1=node1:2888:3888 server.2=node2:2888:3888 server.3=node3:2888:3888

添加每个节点zk服务编号myid

创建文件夹：

mkdir -p /export/data/zkdata

在data文件夹下新建myid文件，myid的文件内容为对应服务器编号：

echo 1 > /export/data/zkdata/myid

分发安装包到其他机器

cd /export/server

scp -r zookeeper/ root@node2:$PWD scp -r zookeeper/ root@node3:$PWD

修改其他机器的配置文件

修改myid文件 mkdir -p /export/data/zkdata echo 2 > /export/data/zkdata/myid

mkdir -p /export/data/zkdata echo 3 > /export/data/zkdata/myid

什么是大数据！！

大数据系统相关栏目本月热门文章