day07 ---- Zookeeper，HBase

1 Zookeeper

https://zookeeper.apache.org/

学习链接

1.1 Zookeeper 概述

Zookeeper 是一个分布式协调服务的开源框架。主要用来解决分布式集群中应用系统的一致性问题。
例如怎样避免同时操作同一数据造成脏读的问题。

1.2 Zookeeper 架构

Leader:
Zookeeper 集群工作的核心事务请求（写操作）的唯一调度和处理者，保证集群事务处理的顺序性；集群内部各个服务器的调度者。
对于 create， setData， delete 等有写操作的请求，则需要统一转发给leader 处理， leader 需要决定编号、执行操作，这个过程称为一个事务。

Follower:
处理客户端非事务（读操作）请求，转发事务请求给 Leader；
参与集群 Leader 选举投票 2n-1台可以做集群投票。
此外，针对访问量比较大的 zookeeper 集群，还可新增观察者角色。

Observer:

观察者角色，观察 Zookeeper 集群的最新状态变化并将这些状态同步过来，其对于非事务请求可以进行独立处理，对于事务请求，则会转发给 Leader 服务器进行处理。
不会参与任何形式的投票只提供非事务服务，通常用于在不影响集群事务处理能力的前提下提升集群的非事务处理能力。
题外话：说白了就是增加并发的读请求

1.3 zookeeper的特性

全局数据一致：每个server 保存一份相同的数据副本， client 无论连接到哪个 server，展示的数据都是一致的，这是最重要的特征；

可靠性：如果消息被其中一台服务器接受，那么将被所有的服务器接受。

顺序性：包括全局有序和偏序两种：全局有序是指如果在一台服务器上消息 a 在消息 b 前发布，则在所有 Server 上消息 a 都将在消息b 前被发布；偏序是指如果一个消息 b 在消息 a 后被同一个发送者发布， a 必将排在 b 前面。

数据更新原子性：一次数据更新要么成功（半数以上节点成功），要么失败，不存在中间状态；

实时性： Zookeeper 保证客户端将在一个时间间隔范围内获得服务器的更新信息，或者服务器失效的信息。

1.4 zookeeper 集群搭建上传解压

cd /opt/softwares
tar -zxvf zookeeper-3.4.8.tar.gz -C ../servers/

修改配置文件

第一台机器修改

cd /opt/servers/zookeeper-3.4.8/conf/
mv zoo_sample.cfg zoo.cfg
mkdir -p /opt/servers/zookeeper-3.4.8/zkdatas/  #zkdatas 创建myid
vim  zoo.cfg

dataDir=/opt/servers/zookeeper-3.4.8/zkdatas

server.1=hadoop01:2888:3888
server.2=hadoop02:2888:3888
server.3=hadoop03:2888:3888

分发到 02 03 节点

scp -r zookeeper-3.4.8/ hadoop02:$PWD
scp -r zookeeper-3.4.8/ hadoop03:$PWD

修改02，03节点的myid
02 节点

cd /opt/servers/zookeeper-3.4.8/zkdatas/
echo 2 > myid

03 节点

cd /opt/servers/zookeeper-3.4.8/zkdatas/
echo 3 > myid

启动zookeeper服务

/opt/servers/zookeeper-3.4.8/bin/zkServer.sh start
# 查看启动状态
/opt/servers/zookeeper-3.4.8/bin/zkServer.sh  status

1.5 shell 操作

zkCli.sh 进入命令行

-s顺序节点

-e 临时节点
退出重新连接就消失了

create -e /tmp "hello zk"

永久节点

create /test "aaa"

获取节点
get /

更新节点

删除节点
delete

rmr

quit 退出 1.6 zoopper 的数据模型 2 Hbase

学习链接

列存储，实时读写，nosql数据库（not only sql）
mysql 表级一行一行的存储

它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。

Hbase 中支持的数据类型：byte[ ]

特点
大：
面向列：
稀疏：

2.1 Hbase与Hadoop的关系 HDFS

可修改

简要特征

海量存储列式存储极易拓展高并发稀疏 2.2 Hbase的基础架构 HMaster RegionServer 2.3 环境集群搭建

注意事项：Hbase强依赖zookeeper和hadoop，安装Hbase之前一定要保证zookeeper和hadoop启动成功，且服务正常运行

下载解压

cd /opt/softwares/

tar -xvzf hbase-2.2.4-bin.tar.gz -C ../servers/

修改配置文件

cd /opt/servers/hbase-2.2.4/conf

hbase-env.sh

修改两个位置
内容太多时可在非编辑模式下 / 搜索内容来快速找到

export JAVA_HOME=/opt/servers/jdk1.8.0_65
export Hbase_MANAGES_ZK=false

echo $JAVA_HOME ：查看jdk 安装路径

hbase-site.xml


        
                hbase.rootdir
                hdfs://hadoop01:8020/hbase  
        

        
                hbase.cluster.distributed
                true
        

   
        
                hbase.master.port
                16000
        

        
                hbase.zookeeper.quorum
                hadoop01:2181,hadoop02:2181,hadoop03:2181
        

        
                hbase.zookeeper.property.dataDir
         		/opt/servers/zookeeper-3.4.8/zkdatas

regionservers

主要配置从节点

hadoop01
hadoop02
hadoop03

创建back-masters配置文件，实现HMaster的高可用

vim backup-masters

hadoop02

安装包分发到其他节点

cd /opt/servers/

scp -r hbase-2.2.4/ hadoop02:$PWD

scp -r hbase-2.2.4/ hadoop03:$PWD

添加Hbase_HOME的环境变量

可先在第一台机器添加，在分发到其他节点

vim /etc/profile

export Hbase_HOME=/opt/servers/hbase-2.2.4
export PATH=:$Hbase_HOME/bin:$PATH

环境生效

三个节点的配置立即生效

source /etc/profile

Hbase 集群启动

在第一台机器执行如下命令启动

start-hbase.sh

我们也可以执行以下命令单节点进行启动

启动HMaster命令

bin/hbase-daemon.sh start master

启动HRegionServer命令

bin/hbase-daemon.sh start regionserver

可在浏览器查看

hadoop01:16010
hadoop02:16010

day07 ---- Zookeeper，HBase

大数据系统相关栏目本月热门文章