Hive-day01-简单介绍_大数据系统

Hive-day01-简单介绍

一：什么是Hive

1：hive简介

hive：解决海量结构化日志的数据统计工具

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。

2：本质：将HQL转化为MapReduce程序

hive处理的数据存储在HDFS，hive分析数据底层的实现是MapReduce，执行程序运行在Yarn上。

二：Hive优缺点

1：优点

1：操作接口采用HQL语法，提供快速开发能力

2：避免了去写MapReduce，减少开发人员的学习成本

3：常用于数据分析，对实时性要求不高的场合

4：优势在于处理大数据，对于处理小数据没有优势，因为hive执行延迟比较高

5：hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

2：缺点

1：Hive的HQL表达能力有限

1：迭代算法无法表达

2：数据挖掘方面不擅长，由于MapReduce数据处理流程的限制，效率更高的算法却无法实现

2：Hive的效率比较低

1：Hive自动生成的MapReduce作业，通常情况不够智能化

2：Hive调优比较困难，粒度较粗

三：Hive架构原理

1：用户接口：Client

CLI（command-line interface）、JDBC/ODBC(jdbc 访问hive)、WEBUI（浏览器访问hive）

2：元数据：metastore

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、
表的类型（是否是外部表）、表的数据所在目录等；

3：Hadoop

使用HDFS 进行存储，使用MapReduce 进行计算。

4：驱动器：Driver

1：解析器（SQL Parser）：将SQL 字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST 进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。
2：编译器（Physical Plan）：将AST 编译生成逻辑执行计划。

3：优化器（Query Optimizer）：对逻辑执行计划进行优化。
4：执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于Hive 来
说，就是MR/Spark。

四、Hive和数据库的比较

1：Hive可支持大规模数据，数据库支持的数据规模较小

2：Hive不建议对数据的改写，所有的数据都是在加载的时候确定好的，读多写少。数据库的数据通常是要经常进行修改的。

3：Hive延迟高，数据库延迟低。

Hive-day01-简单介绍