栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 数据挖掘与分析

HBASE的描述

HBASE的描述

1、Hbase的介绍

Apache Hbase™是 Hadoop 数据库,是一个分布式、可伸缩、大数据存储区。当您需要随机、实时读/写访问大数据时,请使用 Apache Hbase™。 该项目的目标是在商用硬件集群之上托管非常大的表----数十亿行X百万列。Apache Hbase是一个开源的、分布式的、版本化的、非关系的数据库,它参考了 Google 的Bigtable。 正如 Bigtable 利用 Google 文件系统提供的分布式数据存储一样,Apache Hbase 在 Hadoop 和 HDFS 之上提供了类似 Bigtable 的功能。

**定义:**Hbase 是 Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时
读写的分布式 NOSQL 数据库。

**作用:**主要用来存储非结构化、半结构化和结构化的松散数据(列式存储的 NoSQL 数据
库)

利用 Hadoop HDFS 作为其文件存储系统,利用 Hadoop MapReduce 来处理 Hbase中的海量数据,利用 Zookeeper 作为其分布式协同服务。正常情况下,Hbase 不依赖于YARN,用到的时候可以随时开启。从技术上讲,Hbase 实际上更像是“数据存储”而不是数据库”,因为它缺少 RDBMS 中的许多功能,例如字段类型,二级索引,触发器和高级查询语言等。

2、数据模型

逻辑上,Hbase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从底层物理存储结构(Key-Value)来看,Hbase 更像一个 Map。

3、Hbase 逻辑结构 4、物理储存结构

5、名称解释
  1. NameSpace
    命名空间,相当于关系型数据库中的 database,每个命名空间下有多个表。Hbase 默
    认自带的命名空间 hbase 和 default;hbase 中存放的是 Hbase 内置的表,default 是用
    户默认使用的命名空间。
  2. Region
    类似关系型数据库的表,不同之处在于 Hbase 定义表示只需要声明列族,不需要声明
    具体的列。列可以动态的按需要指定;Hbase 更加适合字段经常变更的场景。开始创建表
    是一个表对应一个 region,当表增大到一定值是会被拆分为两个 region。
  3. Row
    Hbase 表中的每行数据被称为 Row,由一个 RowKey 和多个 Column 组成,数据是按
    5
    照 RowKey 的字典顺序存储的,并且查询是只能根据 RowKey 进行检索,所以 RowKey 的
    设计很关键。
  4. Column
    列是由列族(Column Family)和列限定符(Column Qualifier)进行限定,例如:
    base:name,base:sex。建表示只需定义列族,而列限定符无需预先定义。
  5. Cell
    某行中的某一列被称为 Cell(单元格),由{rowkey,column family:column
    qualifier,time stamp}确定单元。Cell 中没有具体的类型,全部是字节码的形式(字节数组)
    存储。
  6. TimeStamp
    用于标识数据的不同版本(version),每条数据写入时,如果不指定时间戳,系统会
    自动为其加上该字段,值为写入 Hbase 的时间。
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/278956.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号