Phoenix简解_大数据系统

最近接触到hbase，hbase可以满足大容量的数据在毫秒级别进行反应，这就用到了hbase中的二级索引；在hbase中也支持sql语法；这两项功能都用到了这一门技术->phoenix

Hbase与HIVE的执行效率比较
Phoenix搭建
Phoenix使用
- 进入phoenix
- phoenix简单使用
Phoenix表映射
- 视图映射
- 表映射
Phoenix二级索引
- 开启索引支持
- 创建索引
- - 全局索引（第一种方式，不要对数据进行改动，做查询即可，频繁的写入，也会修改索引表）
  - - 单列索引
    - 多列索引
  - 本地索引（看不到，由每个region自己去维护）
  - 覆盖索引（也就是介绍索引方式中的第二种）
Phoenix JDBC

Hbase与HIVE的执行效率比较

Hive能够把sql转换成mr任务运行，但整体运行速度比较慢，而Hbase能够做到毫秒级的响应，最底层还是基于scan操作以及过滤器进行处理的，而中间，有一个Phoenix

Phoenix搭建

（先关闭hbase）
1、选一个和自己的hbase匹配的phoenix版本，1.4的hbase适用于phoenix 4.x
2、上传解压缩

3、将phoenix-4.15.0-Hbase-1.4-server.jar复制到所有节点的hbase lib目录下
scp /opt/modules/phoenix-4.15.0/phoenix-4.15.0-Hbase-1.4-server.jar master:/opt/modules/hbase-1.4.6/lib/

scp /usr/local/soft/phoenix-4.15.0/phoenix-4.15.0-Hbase-1.4-server.jar node1:/opt/modules/hbase-1.4.6/lib/

scp /usr/local/soft/phoenix-4.15.0/phoenix-4.15.0-Hbase-1.4-server.jar node2:/opt/modules/hbase-1.4.6/lib/

4、配置/etc/profile中的环境变量

5、master中启动hbase

Phoenix使用进入phoenix

连接sqlline，进入phoenix的交互界面

phoenix简单使用

phoenix中区分大小写

创建表

显示表（这里会把你创建过的表和索引都给显示出来）

插入数据

查询数据：支持大部分的SQL语言，在hbase中，也不会使用很复杂的语言，有一些如果SQL不能完成的话，可以配上Java来进行操作

删除数据

删除表

退出
！quit

Phoenix表映射

默认情况下，在hbase中创建的表，在phoenix中是不能进行操作的，想在phoenix中操作hbase的表，就需要进行一个映射操作
两种映射可选，一个是视图映射，一个是表映射

视图映射

视图映射是只读的，只能用来查询，不能对源数据进行修改等操作

举例一：
在hbase中创建一张test表
create ‘test’,‘name’,‘clazz’

插入数据
put ‘test’,‘001’,‘name:firstname’,‘zhangsan’
put ‘test’,‘001’,‘name:lastname’,‘list’
put ‘test’,‘001’,‘clazz:firstclazz’,‘一班’
put ‘test’,‘001’,‘clazz:lastclazz’,‘二班’

在phoenix中创建视图，primary key对应hbase中的rowkey
create view “test”(
empid varchar primary key,
“name”.“firstname” varchar,
“name”.“lastname” varchar,
“clazz”.“firstclazz” varchar,
“clazz”.“lastclazz” varchar
);

就可以在phoenix中使用SQL查看hbase中的数据了

举例二：

将学生表的数据分别在hbase中创建并导入，在phoenix中创建相应的视图（使用Java导入数据在上一篇关于hbase的博客中有详述，这里不做讲述）

在phoenix创建相应的视图
CREATE view “students” (
id VARCHAR NOT NULL PRIMARY KEY,
“info”.“name” VARCHAR,
“info”.“age” VARCHAR,
“info”.“gender” VARCHAR ,
“info”.“clazz” VARCHAR
) column_encoded_bytes=0;

特别注意在phoenix中查询数据的时候，要给表名加上双引号
查询数据
select * from "students"

删除视图

表映射

其实就直接使用创建表就行了，在hbase中没有表时，在phoenix中创建需要的表即可，创建完成之后，在hbase中会出现相应的表

可以看到，hbase中是没有test这张表的，现在在phoenix中创建test表

发现在hbase中出现了test表

Phoenix二级索引

hbase具有查询数据毫秒级别的响应，和rowkey有着不可分割的联系，hbase的查询，最终都是基于scan+Filter的形式，针对rowkey进行查询，实际上使用的时rowkey前缀过滤器，查询效率较高，如果不根据rowkey进行查询，就需要对表进行逐一扫描，所消耗的资源很高，所以二级索引就是建立了一个rowkey与列值之间的关系，提高查询效率

开启索引支持

关闭hbase集群
在hbase目录下conf中的hbase-site.xml中添加下列配置


  hbase.regionserver.wal.codec
  org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec


    hbase.rpc.timeout
    60000000


    hbase.client.scanner.timeout.period
    60000000


    phoenix.query.timeoutMs
    60000000

将hbase-site.xml同步到所有节点
scp hbase-site.xml node1:pwd
scp hbase-site.xml node2:pwd

修改phoenix目录下的bin中的hbase-site.xml


    hbase.rpc.timeout
    60000000


    hbase.client.scanner.timeout.period
    60000000


    phoenix.query.timeoutMs
    60000000

启动hbase
重新进入phoenix客户端即可
sqlline.sql master,node1,node2

创建索引全局索引（第一种方式，不要对数据进行改动，做查询即可，频繁的写入，也会修改索引表）

全局索引适合读多写少的场景，使用全局索引时，基本不损耗性能，因为每次查询都是根据rowkey来进行查询，无太多资源消耗，消耗的资源来自于写数据；数据表的增删改都会对相关的索引表做一个更新，索引表会跟着发生变化
全局索引中，要想查询某一不在索引表中的列，phoenix不会使用索引表，但可以加上hint来当作索引表中的数据使用

将数据和要执行的SQL放在同一个位置

导入数据

单列索引

创建全局索引
CREATE INDEX DIANXIN_INDEX ON DIANXIN ( end_date );（基于结束时间做索引，从头开始构建索引表非常耗时）

查询数据 ( 索引未生效)
select * from DIANXIN where end_date = ‘20180503154014’;

强制使用索引（索引生效） hint
select * from DIANXIN where end_date = ‘20180503154014’;

取索引列，（索引生效）（创建表时，将end_date这一列定为索引列，查询这一列的时候反馈的时间为毫秒级别）
select end_date from DIANXIN where end_date = ‘20180503154014’;

多列索引

创建多列索引
CREATE INDEX DIANXIN_INDEX1 ON DIANXIN ( end_date,COUNTY );

多条件查询（索引生效）
select end_date,MDN,COUNTY from DIANXIN where end_date = ‘20180503154014’ and COUNTY = ‘8340104’;

想查什么，就把什么当作索引

查询所有列 (索引未生效)
select * from DIANXIN where end_date = ‘20180503154014’ and COUNTY = ‘8340104’;

本地索引（看不到，由每个region自己去维护）

本地索引适合写多读少的场景，或者存储空间有限的场景；本地索引中索引数据和原数据都存储在同一台机器上，可以避免网络传输的资源消耗（全局索引是在所有的机器上面进行，所以会有网络传输的消耗，而由于无法提前确定数据在那个region中，所以读数据的时候，需要检查每个region上的数据从而会带来一些性能的消耗）
而对于本地索引，查询中无论是否指定hint，或者查询的列在不在索引表中，都会使用索引表

创建本地索引
CREATE LOCAL INDEX DIANXIN_LOCAL_IDEX ON DIANXIN(grid_id);

索引生效
select grid_id from dianxin where grid_id=‘117285031820040’;

索引生效
select * from dianxin where grid_id=‘117285031820040’;

覆盖索引（也就是介绍索引方式中的第二种）

覆盖索引就是把原数据的内容直接存储在索引数据表中，查询的时候不需要去hbase的原表中获取数据，直接返回查询结果

创建覆盖索引
CREATE INDEX DIANXIN_INDEX_COVER ON DIANXIN ( x,y ) INCLUDE ( county );

查询所有列 (索引未生效)
select * from dianxin where x=117.288 and y =31.822;

强制使用索引 (索引生效)
select * from dianxin where x=117.288 and y =31.822;

查询索引中的列 (索引生效) mdn是DIANXIN表的RowKey中的一部分
select x,y,county from dianxin where x=117.288 and y =31.822;
select mdn,x,y,county from dianxin where x=117.288 and y =31.822;

查询条件必须放在索引中 select 中的列可以放在INCLUDE （将数据保存在索引中）
select * from DIANXIN where end_date=?"); ps.setString(1, "20180503212649"); ResultSet rs = ps.executeQuery(); while (rs.next()) { String mdn = rs.getString("mdn"); String start_date = rs.getString("start_date"); String end_date = rs.getString("end_date"); String x = rs.getString("x"); String y = rs.getString("y"); String county = rs.getString("county"); System.out.println(mdn + "t" + start_date + "t" + end_date + "t" + x + "t" + y + "t" + county); } ps.close(); conn.close(); } }

感谢阅读，我是啊帅和和，一位大数据专业大四学生，祝你快乐。

Phoenix简解

大数据系统相关栏目本月热门文章