大数据知识点_大数据系统

大数据知识点

hbase 特点

分布式列式存储稀疏数据按rowkey字典顺序有序排列高并发主要角色

Master
是一个轻量级进程，负责所有 DDL 操作，负载均衡， region 信息管理，并在宕机恢复中起主导作用。
RegionServer
管理 HRegion，与客户端点对点通信，负责实时数据的读写。
zookeeper
做 HMaster 选举，关键信息如 meta-region 地址，replication 进度，Regionserver 地址与端口等存储。

hbase数据存储原理

hbase的数据会以HFile存储在hdfs上，一个表可以有多个CF，一个CF会对应一个store，一个store有一到多个storeFile和一个memoryStory组成，store会水平切分为region，region是一个hbase表CF中的一部分有序数据块，按rowkey切分后分布于regionServer提供服务。stoerFile经过合并操作后会落盘成HFile。

hbase读

1.客户端第一次会先请求zookeeper获取meta表存储的hregionServer位置，然后请求mata表并缓存。
2.从缓存的meta信息中找到rowkey所在位置的regionServer。
3.从blockCache读，没找到去HFile读取数据写入blockCache并响应。

hbase写

和读类似，先找到rowkey对应的regionServer，然后写入WAL和memoryStore，达到阈值触发flush操作生成hstoryFile，多个hstoryFile会合并成HFile

flush触发时机：
1.region memoryStory达到hbase.hregion.memorystory.flush.size(默认128M)开始进程刷写（加锁，做快照，将快照移动到.tmp文件夹中，将.tmp文件夹的内容放到对应的region目录下，清理资源）
2.数据增长过快，达到memorystory.flush.size *hbase.hregion.memoryStory.block.multiplier(默认为4) ,触发flush并且阻塞写操作
3.数据达到 hbase.regionserver.global.memstore.size.lower.limit(默认0.95)* hbase.regionserver.global.memstore.size（默认0.4） *hbase_heapsize（占用的JVM堆大小），当前regionServer的写操作都会阻塞

region级别：

整个region中的memoryStore占用内存达到hbase.hregion.memorystory.flush.size默认128M就会触发memoryStory flush到HstoryFile

如果我们的数据增加得很快，达到了 hbase.hregion.memstore.flush.size * hbase.hregion.memstore.block.multiplier(默认为4) 的大小，
那么除了flush以外还会阻塞写请求，如果往对应的 Store 写数据，会出现 RegionTooBusyException 异常。

regionServer级别

如果达到了 RegionServer 级别的 Flush，那么当前 RegionServer 的所有写操作将会被阻塞
如果整个 RegionServer 的 MemStore 占用内存总和大于 hbase.regionserver.global.memstore.size.lower.limit(默认 0.95） * hbase.regionserver.global.memstore.size（默认0.4) * hbase_heapsize（占用的内存大小）的时候，将会触发 MemStore 的刷写

WAL文件数大于阈值

设置了 hbase.regionserver.maxlogs，那就是这个参数的值；否则是 max(32, hbase_heapsize * hbase.regionserver.global.memstore.size（默认0.4） * 2 / logRollSize（滚到文件大小）)。如果某个 RegionServer 的 WAL 数量大于 maxLogs 就会触发 MemStore 的刷写。

自动刷写 mapreduce原理 yarn任务提交原理 sql调优 hbase读写原理 hbase数据合并（compate） shell spark flink： checkpoint 两阶段提交背压处理优化： kafka：读写原理数据一致性 broker挂掉恢复过程

大数据知识点

大数据系统相关栏目本月热门文章