海量数据 文件 mysql 缓存数据
怎么进行大数据处理 hadoop-
数据怎么存储 hadoop中的HDFS
-
数据怎么计算 (增删改查)hadoop中的MR
Volume:数据量大,包括采集、存储和计算的量都非常大;
Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据;
Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵;
Velocity:数据增长速度快,处理速度也快,时效性要求高;
Veracity:数据的准确性和可信赖度,即数据的质量。
大数据的方向etl(采集,清洗,转化,导入) 数据仓库 hadoop的数据存储和计算
数据采集:埋点,爬虫
数据清洗:去除空数据或重复数据
数据转化:转化为对应的存储形式
数据存储:excle,mysql,hadoop
数据分析:
数据展示:BI
拓展离线计算
hadoop mr
近实时计算
spark
实时计算
flink
分布式技术数仓工具大部分都采用分布式技术
将应用或程序分别安装部署在不同的服务器上统一对外提供服务
-
应用分布式
-
存储分布式
-
计算分布式
集群
对外提供多个相同服务
zookeeper分布式协调服务
在数仓领域的场景 协调hadoop服务实现高可用
zookeeper特性-
一致性
-
可靠性
-
顺序性
-
原子性
-
实时性
-
leader--领导者角色 负责管理维护多个zookeeper服务,leader基于内部算法选举产生,超过一般的服务同意则该服务就作为leader服务对外提供zk服务,leader主要处理事务请求(保存,更新,删除)
-
follower--跟随者角色 处理获取数据请求,定时将当前状态告知给leader(心跳机制),参与选举过程
-
observer--观察者角色 处理查询请求,不参选举过程
-
永久节点
-
顺序永久节点
-
临时节点
-
顺序临时节点
tar -zxvf zookeeper-3.4.6.tar.gz mv zookeeper-3.4.6 zookeeper
修改环境变量,可选操作vi /etc/profile export ZOOKEEPER_HOME=/export/server/zookeeper export PATH=$PATH:$ZOOKEEPER_HOME/bin
source /etc/profile
修改Zookeeper配置文件cd zookeeper/conf mv zoo_sample.cfg zoo.cfg
vi zoo.cfg 添加内容: dataDir=/export/data/zkdata
最后一行添加
server.1=node1:2888:3888 server.2=node2:2888:3888 server.3=node3:2888:3888
添加每个节点zk服务编号myid创建文件夹:
mkdir -p /export/data/zkdata
在data文件夹下新建myid文件,myid的文件内容为对应服务器编号:
echo 1 > /export/data/zkdata/myid
分发安装包到其他机器cd /export/server
scp -r zookeeper/ root@node2:$PWD scp -r zookeeper/ root@node3:$PWD
修改其他机器的配置文件
修改myid文件 mkdir -p /export/data/zkdata echo 2 > /export/data/zkdata/myid
mkdir -p /export/data/zkdata echo 3 > /export/data/zkdata/myid



