- 组内代码研究方向介绍
- Hive大致介绍
- 对于Hadoop以及Hive的安装配置
- 初始化代码片
- 小结
2021SC@SDUSC 组内代码研究方向介绍
本小组共4位成员,各自的代码分析方向如下:
如图所示,一共有4个标题数字,分别为小组内四位成员所分析的代码大致方向。
1.将HQL转化成抽象语法书AST
2.将抽象语法树AST转换成查询块QB
3.将查询块QB转换成逻辑查询计划(OP Tree)
4.对OP Tree进行逻辑优化
我的研究方向为将查询块QB转换成逻辑查询计划(OP Tree)。
小组经讨论决定,先从编译部分的代码开始分析,逐步从最底层的原理去认识和学习Hive这项大数据技术。
Apache Hive 是一个开源项目,由 Apache 软件基金会的志愿者运营。
Apache Hive ™ 数据仓库软件有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。
Hive的执行语句为HQL,与SQL类似,但是处理的数据规模只有比SQL规模大的非常多之后才会有一定的优势,对于小规模数据的处理效率比SQL低效。
Hive的运行环境是基于Hadoop上的,所以我们在使用Hive技术前也需要学习Hadoop的一定知识。
由于组内的同学已经完成了对Hadoop和Hive的安装,于是本人就参照该同学的博客,以及Apchae Hive官网地址
完成了对Hadoop以及Hive的安装与配置。
该图片为Hive初始化运行的截图。
启动 代码片.
$ Su; # start-all.sh;小结
从10月1日开始,我们小组就正式开展对Hive的研究,希望我们能够学以致用。



