栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hive分布式数据仓库

Hive分布式数据仓库

Hive是基于Hadoop的数据仓库软件      

数据库适用于OLTP(联机事务管理-增删改查的操作)__中的数据时实时更新的
数据仓库适用于OLAP(联机事务分析-对历史数据进行分析或者汇总)

特性:灵活方便的extract transform load   
      支持 Tez(默认引擎) spark多种引擎  
      可以直接访问HDFS Hbase
应用场景----->数据挖掘 非实时性分析 数据汇总 数据仓库

       优点
高可靠(集群存储 一两个错误没影响)高容错  类似SQL语法  可扩展  多接口
接口:Beeline   JDBC  Thrift  Python  ODBC

Hive运行过程
Client提交HQL命令
Tez执行查询
YARN为集群中的应用程序分配资源 并未YARN队列中的Hive作业启用授权
Hive根据表类型更新HDFS或Hive仓库中的数据
Hive通过JDBC连接返回查询结果

             数据库--->区分不同业务的数据
                表  |
分区(按照字段|进行划分  相同的数据放到同一个分区)   -桶(利用hash分区方式放到不同桶)       倾斜数据 正常数据    
                     |                                                                     
                     |
分区数量不固定 建表时指定桶个数 桶内可排序
内部表create table                            创建外部表 create external  表名        临时表create temporary存放临时结果或中见结果 用于过度
会将数据移动到数据仓库指定的路径   localtion指定放在那个目录  可无        只在hive连接窗口有效
                                                         删除时 只删除元数据
普通表删除 元数据和数据一起删除     

Hive数据最终存储到了HDFS上 /user/hive/warehouse/
可以不用分隔符;

离线批发工具__ 直梯___>高延迟
MapRuduce    Hive
实时流处理____阶梯__>低延迟
Strom(Streaming)

关于Hive在Fusionlnsight HD中的架构结构描述
HiveServer负责接受客户端请求 解析 执行HQL命令并返回查询结果
metaStore用于提供原数据服务 依赖于DBServer


 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/654378.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号