数据仓库工具hive_大数据系统

1、Hive是什么

1.概述.
Apache Hive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理，它本身是建立在Apache Hadoop之上，主要提供以下功能：

（1）它提供了一系列的工具，可用来对数据进行提取/转化/加载（ETL）；

（2）是一种可以存储、查询和分析存储在HDFS（或者Hbase）中的大规模数据的机制；

（3）HQL查询是通过MapReduce来完成的[select *from 不会 ]

2.数据仓库与数据区别 hive产生就是为了解决MR的结构数据分析问题,完成海量数据的存储

2.1.概念：

数据库：数量小结构化数据存储更倾向于精细化的数据管理数据存储的时候分库分表存储有事务的概念

数据仓库：数据量大的结构数据存储倾向于数据的管理没有事务的概念

2.2.使用：数据库：mysql/oracle/sql server 标准sql 数据仓库：hive中-----hql 方言sql

2.3.应用场景：数据库：OLTP On-Line Transaction Processing联机事务处理 insert delete update 数据仓库：OLAP:On-Line Analysis Processing 联机分析事物处理 select 在hive中不支持update delete 但是支持insert

**2.4.数据量数据库：**集中式数据量比较小数据仓库：分布式数据量大 2.5.延时性数据库：实时数据仓库：离线的

3.总结
3.1 hive3一个数据仓库, hive基于hadoop,hive的终的原始数据存储在hdfs 3.2 提供一种类似于sql语句的方式来完成mapreduce ,Hive的本质是将 SQL 语句转换为 MapReduce 任务运行
3.3 使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据

Hive架构原理

数据存储位置

Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。

执行延迟

Hive 在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce框架。由于MapReduce 本身具有较高的延迟，因此在利用MapReduce 执行Hive查询时，也会有较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive的并行计算显然能体现出优势。

可扩展性

由于Hive是建立在Hadoop之上的，因此Hive的可扩展性是和Hadoop的可扩展性是一致的（世界上最大的Hadoop 集群在 Yahoo!，2009年的规模在4000 台节点左右）。而数据库由于 ACID 语义的严格限制，扩展行非常有限。目前最先进的并行数据库 Oracle 在理论上的扩展能力也只有100台左右。

Hive安装

使用mysql数据库替代Derby来存储元数据，以解决多用户并发访问问题

2.Hive安装地址

1．Hive官网地址

http://hive.apache.org/

2．文档查看地址

https://cwiki.apache.org/confluence/display/Hive/GettingStarted

3．下载地址

http://archive.apache.org/dist/hive/

4．github地址

https://github.com/apache/hive

Hive安装部署

1．Hive安装及配置

（1）把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下

（2）解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面

[root@hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C
 /opt/module/

（3）修改apache-hive-1.2.1-bin.tar.gz的名称为hive

# 1.切换到module目录
[root@hadoop102 software]$ cd ../module

# 2.修改名称
[root@hadoop102 module]$ mv apache-hive-1.2.1-bin/ hive

（4）修改/opt/module/hive/conf目录下的hive-env.sh.template名称为hive-env.sh

[root@hadoop102 conf]$ mv hive-env.sh.template hive-env.sh

（5）配置hive-env.sh文件

（a）配置HADOOP_HOME路径

export HADOOP_HOME=/opt/module/hadoop-2.7.2

（b）配置HIVE_CONF_DIR路径

export HIVE_CONF_DIR=/opt/module/hive/conf

2．Hadoop集群配置

（1）必须启动hdfs和yarn

[root@hadoop102 hadoop-2.7.2]$ start-dfs.sh
[root@hadoop103 hadoop-2.7.2]$ start-yarn.sh

（2）在HDFS上创建/tmp和/user/hive/warehouse两个目录并修改他们的同组权限可写

[root@hadoop102 hadoop-2.7.2]$ hadoop fs -mkdir /tmp
[root@hadoop102 hadoop-2.7.2]$ hadoop fs -mkdir -p /user/hive/warehouse
[root@hadoop102 hadoop-2.7.2]$ hadoop fs -chmod g+w /tmp
[root@hadoop102 hadoop-2.7.2]$ hadoop fs -chmod g+w /user/hive/warehouse

3．Hive基本操作

（1）启动hive
 /opt/module/hive
[root@hadoop102 hive]$ bin/hive
（2）查看数据库
hive> show databases;
（3）打开默认数据库
hive> use default;
（4）显示default数据库中的表
hive> show tables;
（5）创建一张表
hive> create table student(id int, name string);
（6）显示数据库中有几张表
hive> show tables;
（7）查看表的结构
hive> desc student;
（8）向表中插入数据
hive> insert into student values(1000,"ss");
（9）查询表中数据
hive> select * from student;
（10）退出hive
hive> quit; 
说明：（查看hive在hdfs中的结构）
数据库：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹

表：在hdfs中表现所属db目录下一个文件夹，文件夹中存放该表中的具体数据

将本地文件导入Hive案例

需求

将本地/opt/module/hive/datas/student.txt这个目录下的数据导入到hive的student(id int, name string)表中。

1．数据准备

在/opt/module/datas这个目录下准备数据

（1）在/opt/module/目录下创建datas

[root@hadoop102 module]$ mkdir datas

（2）在/opt/module/datas/目录下创建student.txt文件并添加数据

[root@hadoop102 datas]$ touch student.txt
[root@hadoop102 datas]$ vi student.txt

1001	zhangshan
1002	lishi
1003	zhaoliu

注意以tab键间隔。
2．Hive实际操作

（1）启动hive
[root@hadoop102 hive]$ bin/hive

（2）显示数据库
hive> show databases;

（3）使用default数据库
hive> use default;

（4）显示default数据库中的表
hive> show tables;

（5）删除已创建的student表
hive> drop table student;

（6）创建student表, 并声明文件分隔符’t’
hive> create table student(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED
 BY 't';

（7）加载/opt/module/datas/student.txt 文件到student数据库表中。
hive> load data local inpath '/opt/module/hive/datas/student.txt' into table student;

（8）Hive查询结果
hive> select * from student;
OK

1001	zhangshan
1002	lishi
1003	zhaoliu

Time taken: 0.266 seconds, Fetched: 3 row(s)

3.Mysql安装安装包准备

1．查看mysql是否安装，如果安装了，卸载mysql

（1）查看

[root@hadoop102 桌面]# rpm -qa|grep mysql
		rpm -qa |grep -i mysql 
mysql-libs-5.1.73-5.el6_6.x86_64

（2）卸载

[root@hadoop102 桌面]# rpm -e --nodeps mysql-libs-5.1.73-5.el6_6.x86_64

2．解压mysql-libs.zip文件到当前目录

[root@hadoop102 software]# unzip mysql-libs.zip
[root@hadoop102 software]# ls
mysql-libs.zip
mysql-libs

3．进入到mysql-libs文件夹下

[root@hadoop102 mysql-libs]# ll
总用量 76048
-rw-r--r--. 1 root root 18509960 3月  26 2015 MySQL-client-5.6.24-1.el6.x86_64.rpm
-rw-r--r--. 1 root root  3575135 12月  1 2013 mysql-connector-java-5.1.27.tar.gz
-rw-r--r--. 1 root root 55782196 3月  26 2015 MySQL-server-5.6.24-1.el6.x86_64.rpm

安装MySql服务器

1．安装mysql服务端

[root@hadoop102 mysql-libs]# rpm -ivh MySQL-server-5.6.24-1.el6.x86_64.rpm

2．查看产生的随机密码

[root@hadoop102 mysql-libs]# cat /root/.mysql_secret
sP2wb_zdwA1o3zAh

3．查看mysql状态

[root@hadoop102 mysql-libs]# service mysql status

4．启动mysql

[root@hadoop102 mysql-libs]# service mysql start

安装MySql客户端

1．安装mysql客户端

[root@hadoop102 mysql-libs]# rpm -ivh MySQL-client-5.6.24-1.el6.x86_64.rpm

2．链接mysql

    cat /root/.mysql_secret

[root@hadoop102 mysql-libs]# mysql -uroot -pdDpX_qNGzPgXomRd

3．修改密码

mysql>SET PASSWORD=PASSWORd('000000');

4．退出mysql

mysql>exit

MySql中user表中主机配置

配置只要是root用户+密码，在任何主机上都能登录MySQL数据库。

1．进入mysql

[root@hadoop102 mysql-libs]# mysql -uroot -p000000

2．显示数据库

mysql>show databases;

3．使用mysql数据库

mysql>use mysql;

4．展示mysql数据库中的所有表

mysql>show tables;

5．展示user表的结构

mysql>desc user;

6．查询user表

mysql>select User, Host, Password from user;

7．修改user表，把Host表内容修改为%

mysql>update user set host='%' where host='localhost';

8．删除root用户的其他host

mysql>delete from user where Host='node2';
mysql>delete from user where Host='127.0.0.1';
mysql>delete from user where Host='::1';

9．刷新

mysql>flush privileges;

10．退出

mysql>quit;

4 Hive元数据配置到MySql 4.1驱动拷贝

1．在/opt/software/mysql-libs目录下解压mysql-connector-java-5.1.27.tar.gz驱动包

[root@hadoop102 mysql-libs]# tar -zxvf mysql-connector-java-5.1.27.tar.gz

2．拷贝/opt/software/mysql-libs/mysql-connector-java-5.1.27目录下的mysql-connector-java-5.1.27-bin.jar到/opt/module/hive/lib/

[root@hadoop102 mysql-connector-java-5.1.27]# cp mysql-connector-java-5.1.27-bin.jar /opt/module/hive/lib/

4.2 配置metastore到MySql

1．在/opt/module/hive/conf目录下创建一个hive-site.xml

[root@hadoop102 conf]$ touch hive-site.xml
[root@hadoop102 conf]$ vi hive-site.xml

2．根据官方文档配置参数，拷贝数据到hive-site.xml文件中

https://cwiki.apache.org/confluence/display/Hive/AdminManual+metastoreAdmin




	
	  javax.jdo.option.ConnectionURL
	  jdbc:mysql://hadoop102:3306/metastore?createDatabaseIfNotExist=true
	  JDBC connect string for a JDBC metastore
	

	
	  javax.jdo.option.ConnectionDriverName
	  com.mysql.jdbc.Driver
	  Driver class name for a JDBC metastore
	

	
	  javax.jdo.option.ConnectionUserName
	  root
	  username to use against metastore database
	

	
	  javax.jdo.option.ConnectionPassword
	  000000
	  password to use against metastore database

3．配置完毕后，如果启动hive异常，可以重新启动虚拟机。（重启后，别忘了启动hadoop集群）

4.3 多窗口启动Hive测试

1．先启动MySQL

[root@hadoop102 mysql-libs]$ mysql -uroot -p000000

查看有几个数据库

mysql> show databases;

±-------------------+

| Database |

±-------------------+

| information_schema |

| mysql |

| performance_schema |

| test |

±-------------------+

2．再次打开多个窗口，分别启动hive

[root@hadoop102 hive]$ bin/hive

3．启动hive后，回到MySQL窗口查看数据库，显示增加了metastore数据库

mysql> show databases;

±-------------------+

| Database |

±-------------------+

| information_schema |

| metastore |

| mysql |

| performance_schema |

| test |

±-------------------+

5.HiveJDBC访问 5.1 启动hiveserver2服务

[root@hadoop102 hive]$ bin/hiveserver2

5.2 启动beeline

[root@hadoop102 hive]$ bin/beeline
Beeline version 1.2.1 by Apache Hive
beeline>

5.3 连接hiveserver2

beeline> !connect jdbc:hive2://hadoop102:10000（回车）

Connecting to jdbc:hive2://hadoop102:10000

Enter username for jdbc:hive2://hadoop102:10000: root（回车）

Enter password for jdbc:hive2://hadoop102:10000: （直接回车）

Connected to: Apache Hive (version 1.2.1)

Driver: Hive JDBC (version 1.2.1)

Transaction isolation: TRANSACTION_REPEATABLE_READ

0: jdbc:hive2://hadoop102:10000> show databases;

+----------------+--+

| database_name  |

+----------------+--+

| default     |

+----------------+--+

6 Hive常用交互命令

[root@hadoop102 hive]$ bin/hive -help

1．“-e”不进入hive的交互窗口执行sql语句

[root@hadoop102 hive]$ bin/hive -e "select id from student;"

2．“-f”执行脚本中sql语句

（1）在/opt/module/datas目录下创建hivef.sql文件

[root@hadoop102 datas]$ touch hivef.sql

文件中写入正确的sql语句

	select *from student;

（2）执行文件中的sql语句

[root@hadoop102 hive]$ bin/hive -f /opt/module/datas/hivef.sql

（3）执行文件中的sql语句并将结果写入文件中

[root@hadoop102 hive]$ bin/hive -f /opt/module/datas/hivef.sql  > /opt/module/datas/hive_result.txt

7 Hive其他命令操作

1．退出hive窗口：

hive(default)>exit;
hive(default)>quit;

在新版的hive中没区别了，在以前的版本是有的：

exit:先隐性提交数据，再退出；

quit:不提交数据，退出；

2．在hive cli命令窗口中如何查看hdfs文件系统

hive(default)>dfs -ls /;

3．在hive cli命令窗口中如何查看本地文件系统

hive(default)>! ls /opt/module/datas;

4．查看在hive中输入的所有历史命令

（1）进入到当前用户的根目录/root或/home/root

（2）查看. hivehistory文件

[root@hadoop102 ~]$ cat .hivehistory

7.1 Hive数据仓库位置配置

1）Default数据仓库的最原始位置是在hdfs上的：/user/hive/warehouse路径下。

2）在仓库目录下，没有对默认的数据库default创建文件夹。如果某张表属于default数据库，直接在数据仓库目录下创建一个文件夹。

3）修改default数据仓库原始位置（将hive-default.xml.template如下配置信息拷贝到hive-site.xml文件中）。


hive.metastore.warehouse.dir
/user/hive/warehouse
location of default database for the warehouse

配置同组用户有执行权限

bin/hdfs dfs -chmod g+w /user/hive/warehouse

7.2 查询后信息显示配置

1）在hive-site.xml文件中添加如下配置信息，就可以实现显示当前数据库，以及查询表的头信息配置。


	hive.cli.print.header
	true



	hive.cli.print.current.db
	true

2）重新启动hive，对比配置前后差异。

显示数据仓库

7.3 Hive运行日志信息配置

1．Hive的log默认存放在/tmp/root/hive.log目录下（当前用户名下）

2．修改hive的log存放日志到/opt/module/hive/logs

（1）修改/opt/module/hive/conf/hive-log4j.properties.template文件名称为

hive-log4j.properties

[root@hadoop102 conf]$ pwd

/opt/module/hive/conf

[root@hadoop102 conf]$ mv hive-log4j.properties.template hive-log4j.properties

（2）在hive-log4j.properties文件中修改log存放位置

hive.log.dir=/opt/module/hive/logs

数据仓库工具hive

大数据系统相关栏目本月热门文章