2021-09-29_大数据

2021-09-29

【软件工程实践】Hive研究小组开题报告

组内代码研究方向介绍
- Hive大致介绍
- 对于Hadoop以及Hive的安装配置
- 初始化代码片
- 小结

2021SC@SDUSC

组内代码研究方向介绍

本小组共4位成员，各自的代码分析方向如下：

如图所示，一共有4个标题数字，分别为小组内四位成员所分析的代码大致方向。
1.将HQL转化成抽象语法书AST
2.将抽象语法树AST转换成查询块QB
3.将查询块QB转换成逻辑查询计划（OP Tree）
4.对OP Tree进行逻辑优化
我的研究方向为将查询块QB转换成逻辑查询计划（OP Tree）。
小组经讨论决定，先从编译部分的代码开始分析，逐步从最底层的原理去认识和学习Hive这项大数据技术。

Hive大致介绍

Apache Hive 是一个开源项目，由 Apache 软件基金会的志愿者运营。
Apache Hive ™ 数据仓库软件有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。
Hive的执行语句为HQL，与SQL类似，但是处理的数据规模只有比SQL规模大的非常多之后才会有一定的优势，对于小规模数据的处理效率比SQL低效。
Hive的运行环境是基于Hadoop上的，所以我们在使用Hive技术前也需要学习Hadoop的一定知识。

对于Hadoop以及Hive的安装配置

由于组内的同学已经完成了对Hadoop和Hive的安装，于是本人就参照该同学的博客，以及Apchae Hive官网地址
完成了对Hadoop以及Hive的安装与配置。

该图片为Hive初始化运行的截图。

初始化代码片

启动代码片.

$ Su;
# start-all.sh;

小结

从10月1日开始，我们小组就正式开展对Hive的研究，希望我们能够学以致用。

2021-09-29

大数据相关栏目本月热门文章