大数据项目-3.hbase（理论）

一：为什么出现hbase？

在大数据的领域，一直摸索的有俩个方向，一个是存储，另外一个是计算。人们在这俩个领域不段的进行研究。按照之前的阶段来讲，存储使用hdfs，计算使用hive（map-reduce）。但是有个问题，使用hdfs存储数据，查询会非常慢，所以，我们在hdfs的基础上，创建了hbase，数据底层依旧是hdfs，我们在hdfs之上对于数据做一个类似的索引，将这些信息存放在一个物理表中。后期我们查询某个信息，直接查询物理表即可。这就是hbase的原因。二：hbase是什么？ 1. hbase是分布式，高可用的列式存储工具。 2. hbase基础框架高可用

分布式

进行和客户段的io。监控HRegion。为了保持查询效率，当HRegion存储的数据多时，查询效率会降低，所以当超过一个阈值（256M）的时候，会分割成为俩个HRegion。

列式存储

3.读写流程

写流程

Client向zk发出写数据的请求。zk分配指定的HRegion。

之后向HRegion写数据，数据被写到指定的MenStore中。

等到底阈值，会形成一个StoreFile。

随着StoreFile文件的不断增多，当其数量增长到一定阈值后，触发Compact合并操作，将多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除。

StoreFiles通过不断的Compact合并操作，逐步形成越来越大的StoreFile。

单个StoreFile大小超过一定阈值后，触发Split操作，把当前Region Split成2个新的Region。父Region会下线，新Split出的2个子Region会被HMaster分配到相应的RegionServer上，使得原先1个Region的压力得以分流到2个Region上。

读流程了解HRegion定位

HRegion被分配给哪个HRegionServer是完全动态的，所以需要机制来定位HRegion具体在哪个HRegionServer，Hbase使用三层结构来定位HRegion：

1、通过zk里的文件/Hbase/rs得到-ROOT-表的位置。-ROOT-表只有一个region。

2、通过-ROOT-表查找.meta.表的第一个表中相应的HRegion位置。其实-ROOT-表是.meta.表的第一个region；.meta.表中的每一个Region在-ROOT-表中都是一行记录。

3、通过.meta.表找到所要的用户表HRegion的位置。用户表的每个HRegion在.meta.表中都是一行记录。-ROOT-表永远不会被分隔为多个HRegion，保证了最多需要三次跳转，就能定位到任意的region。Client会将查询的位置信息保存缓存起来，缓存不会主动失效，因此如果Client上的缓存全部失效，则需要进行6次网络来回，才能定位到正确的HRegion，其中三次用来发现缓存失效，另外三次用来获取位置信息。

读的过程

Client访问Zookeeper，查找-ROOT-表，获取.meta.表信息。

从.meta.表查找，获取存放目标数据的Region信息，从而找到对应的RegionServer。

通过RegionServer获取需要查找的数据。

Regionserver的内存分为MemStore和BlockCache两部分，MemStore主要用于写数据，BlockCache主要用于读数据。读请求先到MemStore中查数据，查不到就到BlockCache中查，再查不到就会到StoreFile上读，并把读的结果放入BlockCache。

寻址过程：client–>Zookeeper–>-ROOT-表–>.meta.表–>RegionServer–>Region–>client

三：怎么使用Hbase？ 1. 安装 2. 操作流程。

详细查看网站

大数据项目-3.hbase（理论）

大数据系统相关栏目本月热门文章