栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Phoenix简解

Phoenix简解

最近接触到hbase,hbase可以满足大容量的数据在毫秒级别进行反应,这就用到了hbase中的二级索引;在hbase中也支持sql语法;这两项功能都用到了这一门技术->phoenix

目录
  • Hbase与HIVE的执行效率比较
  • Phoenix搭建
  • Phoenix使用
    • 进入phoenix
    • phoenix简单使用
  • Phoenix表映射
    • 视图映射
    • 表映射
  • Phoenix二级索引
    • 开启索引支持
    • 创建索引
      • 全局索引(第一种方式,不要对数据进行改动,做查询即可,频繁的写入,也会修改索引表)
        • 单列索引
        • 多列索引
      • 本地索引(看不到,由每个region自己去维护)
      • 覆盖索引(也就是介绍索引方式中的第二种)
  • Phoenix JDBC

Hbase与HIVE的执行效率比较


Hive能够把sql转换成mr任务运行,但整体运行速度比较慢,而Hbase能够做到毫秒级的响应,最底层还是基于scan操作以及过滤器进行处理的,而中间,有一个Phoenix

Phoenix搭建

(先关闭hbase)
1、选一个和自己的hbase匹配的phoenix版本,1.4的hbase适用于phoenix 4.x
2、上传解压缩

3、将phoenix-4.15.0-Hbase-1.4-server.jar复制到所有节点的hbase lib目录下
scp /opt/modules/phoenix-4.15.0/phoenix-4.15.0-Hbase-1.4-server.jar master:/opt/modules/hbase-1.4.6/lib/

scp /usr/local/soft/phoenix-4.15.0/phoenix-4.15.0-Hbase-1.4-server.jar node1:/opt/modules/hbase-1.4.6/lib/

scp /usr/local/soft/phoenix-4.15.0/phoenix-4.15.0-Hbase-1.4-server.jar node2:/opt/modules/hbase-1.4.6/lib/

4、配置/etc/profile中的环境变量

5、master中启动hbase

Phoenix使用 进入phoenix

连接sqlline,进入phoenix的交互界面

phoenix简单使用

phoenix中区分大小写

创建表

显示表(这里会把你创建过的表和索引都给显示出来)

插入数据

查询数据:支持大部分的SQL语言,在hbase中,也不会使用很复杂的语言,有一些如果SQL不能完成的话,可以配上Java来进行操作

删除数据

删除表

退出
!quit

Phoenix表映射

默认情况下,在hbase中创建的表,在phoenix中是不能进行操作的,想在phoenix中操作hbase的表,就需要进行一个映射操作
两种映射可选,一个是视图映射,一个是表映射

视图映射

视图映射是只读的,只能用来查询,不能对源数据进行修改等操作

举例一:
在hbase中创建一张test表
create ‘test’,‘name’,‘clazz’

插入数据
put ‘test’,‘001’,‘name:firstname’,‘zhangsan’
put ‘test’,‘001’,‘name:lastname’,‘list’
put ‘test’,‘001’,‘clazz:firstclazz’,‘一班’
put ‘test’,‘001’,‘clazz:lastclazz’,‘二班’

在phoenix中创建视图,primary key对应hbase中的rowkey
create view “test”(
empid varchar primary key,
“name”.“firstname” varchar,
“name”.“lastname” varchar,
“clazz”.“firstclazz” varchar,
“clazz”.“lastclazz” varchar
);

就可以在phoenix中使用SQL查看hbase中的数据了

举例二:

将学生表的数据分别在hbase中创建并导入,在phoenix中创建相应的视图(使用Java导入数据在上一篇关于hbase的博客中有详述,这里不做讲述)

在phoenix创建相应的视图
CREATE view “students” (
id VARCHAR NOT NULL PRIMARY KEY,
“info”.“name” VARCHAR,
“info”.“age” VARCHAR,
“info”.“gender” VARCHAR ,
“info”.“clazz” VARCHAR
) column_encoded_bytes=0;

特别注意在phoenix中查询数据的时候,要给表名加上双引号
查询数据
select * from "students"

删除视图

表映射

其实就直接使用创建表就行了,在hbase中没有表时,在phoenix中创建需要的表即可,创建完成之后,在hbase中会出现相应的表


可以看到,hbase中是没有test这张表的,现在在phoenix中创建test表

发现在hbase中出现了test表

Phoenix二级索引

hbase具有查询数据毫秒级别的响应,和rowkey有着不可分割的联系,hbase的查询,最终都是基于scan+Filter的形式,针对rowkey进行查询,实际上使用的时rowkey前缀过滤器,查询效率较高,如果不根据rowkey进行查询,就需要对表进行逐一扫描,所消耗的资源很高,所以二级索引就是建立了一个rowkey与列值之间的关系,提高查询效率

开启索引支持

关闭hbase集群
在hbase目录下conf中的hbase-site.xml中添加下列配置


  hbase.regionserver.wal.codec
  org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec


    hbase.rpc.timeout
    60000000


    hbase.client.scanner.timeout.period
    60000000


    phoenix.query.timeoutMs
    60000000

将hbase-site.xml同步到所有节点
scp hbase-site.xml node1:pwd
scp hbase-site.xml node2:pwd

修改phoenix目录下的bin中的hbase-site.xml


    hbase.rpc.timeout
    60000000


    hbase.client.scanner.timeout.period
    60000000


    phoenix.query.timeoutMs
    60000000

启动hbase
重新进入phoenix客户端即可
sqlline.sql master,node1,node2

创建索引 全局索引(第一种方式,不要对数据进行改动,做查询即可,频繁的写入,也会修改索引表)

全局索引适合 读多写少 的场景,使用全局索引时,基本不损耗性能,因为每次查询都是根据rowkey来进行查询,无太多资源消耗,消耗的资源来自于写数据;数据表的增删改都会对相关的索引表做一个更新,索引表会跟着发生变化
全局索引中,要想查询某一不在索引表中的列,phoenix不会使用索引表,但可以加上hint来当作索引表中的数据使用

将数据和要执行的SQL放在同一个位置

导入数据

单列索引

创建全局索引
CREATE INDEX DIANXIN_INDEX ON DIANXIN ( end_date );(基于结束时间做索引,从头开始构建索引表非常耗时)

查询数据 ( 索引未生效)
select * from DIANXIN where end_date = ‘20180503154014’;

强制使用索引 (索引生效) hint
select * from DIANXIN where end_date = ‘20180503154014’;

取索引列,(索引生效)(创建表时,将end_date这一列定为索引列,查询这一列的时候反馈的时间为毫秒级别)
select end_date from DIANXIN where end_date = ‘20180503154014’;

多列索引

创建多列索引
CREATE INDEX DIANXIN_INDEX1 ON DIANXIN ( end_date,COUNTY );

多条件查询 (索引生效)
select end_date,MDN,COUNTY from DIANXIN where end_date = ‘20180503154014’ and COUNTY = ‘8340104’;

想查什么,就把什么当作索引

查询所有列 (索引未生效)
select * from DIANXIN where end_date = ‘20180503154014’ and COUNTY = ‘8340104’;

本地索引(看不到,由每个region自己去维护)

本地索引适合写多读少的场景,或者存储空间有限的场景;本地索引中索引数据和原数据都存储在同一台机器上,可以避免网络传输的资源消耗(全局索引是在所有的机器上面进行,所以会有网络传输的消耗,而由于无法提前确定数据在那个region中,所以读数据的时候,需要检查每个region上的数据从而会带来一些性能的消耗)
而对于本地索引,查询中无论是否指定hint,或者查询的列在不在索引表中,都会使用索引表

创建本地索引
CREATE LOCAL INDEX DIANXIN_LOCAL_IDEX ON DIANXIN(grid_id);

索引生效
select grid_id from dianxin where grid_id=‘117285031820040’;

索引生效
select * from dianxin where grid_id=‘117285031820040’;

覆盖索引(也就是介绍索引方式中的第二种)

覆盖索引就是把原数据的内容直接存储在索引数据表中,查询的时候不需要去hbase的原表中获取数据,直接返回查询结果

创建覆盖索引
CREATE INDEX DIANXIN_INDEX_COVER ON DIANXIN ( x,y ) INCLUDE ( county );

查询所有列 (索引未生效)
select * from dianxin where x=117.288 and y =31.822;

强制使用索引 (索引生效)
select * from dianxin where x=117.288 and y =31.822;

查询索引中的列 (索引生效) mdn是DIANXIN表的RowKey中的一部分
select x,y,county from dianxin where x=117.288 and y =31.822;
select mdn,x,y,county from dianxin where x=117.288 and y =31.822;

查询条件必须放在索引中 select 中的列可以放在INCLUDE (将数据保存在索引中)
select * from DIANXIN where end_date=?"); ps.setString(1, "20180503212649"); ResultSet rs = ps.executeQuery(); while (rs.next()) { String mdn = rs.getString("mdn"); String start_date = rs.getString("start_date"); String end_date = rs.getString("end_date"); String x = rs.getString("x"); String y = rs.getString("y"); String county = rs.getString("county"); System.out.println(mdn + "t" + start_date + "t" + end_date + "t" + x + "t" + y + "t" + county); } ps.close(); conn.close(); } }

感谢阅读,我是啊帅和和,一位大数据专业大四学生,祝你快乐。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/326297.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号