栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据知识点

大数据知识点

hbase 特点
    分布式列式存储稀疏数据按rowkey字典顺序有序排列高并发
主要角色

Master
是一个轻量级进程,负责所有 DDL 操作,负载均衡, region 信息管理,并在宕机恢复中起主导作用。
RegionServer
管理 HRegion,与客户端点对点通信,负责实时数据的读写。
zookeeper
做 HMaster 选举,关键信息如 meta-region 地址,replication 进度,Regionserver 地址与端口等存储。

hbase数据存储原理

hbase的数据会以HFile存储在hdfs上,一个表可以有多个CF,一个CF会对应一个store,一个store有一到多个storeFile和一个memoryStory组成,store会水平切分为region,region是一个hbase表CF中的一部分有序数据块,按rowkey切分后分布于regionServer提供服务。stoerFile经过合并操作后会落盘成HFile。

hbase读

1.客户端第一次会先请求zookeeper获取meta表存储的hregionServer位置,然后请求mata表并缓存。
2.从缓存的meta信息中找到rowkey所在位置的regionServer。
3.从blockCache读,没找到去HFile读取数据写入blockCache并响应。

hbase写

和读类似,先找到rowkey对应的regionServer,然后写入WAL和memoryStore,达到阈值触发flush操作生成hstoryFile,多个hstoryFile会合并成HFile

flush触发时机:
1.region memoryStory达到hbase.hregion.memorystory.flush.size(默认128M)开始进程刷写(加锁,做快照,将快照移动到.tmp文件夹中,将.tmp文件夹的内容放到对应的region目录下,清理资源)
2.数据增长过快,达到memorystory.flush.size *hbase.hregion.memoryStory.block.multiplier(默认为4) ,触发flush并且阻塞写操作
3.数据达到 hbase.regionserver.global.memstore.size.lower.limit(默认0.95)* hbase.regionserver.global.memstore.size(默认0.4) *hbase_heapsize(占用的JVM堆大小),当前regionServer的写操作都会阻塞

region级别:

整个region中的memoryStore占用内存达到hbase.hregion.memorystory.flush.size默认128M就会触发memoryStory flush到HstoryFile

如果我们的数据增加得很快,达到了 hbase.hregion.memstore.flush.size * hbase.hregion.memstore.block.multiplier(默认为4) 的大小,
那么除了flush以外还会阻塞写请求,如果往对应的 Store 写数据,会出现 RegionTooBusyException 异常。

regionServer级别

如果达到了 RegionServer 级别的 Flush,那么当前 RegionServer 的所有写操作将会被阻塞
如果整个 RegionServer 的 MemStore 占用内存总和大于 hbase.regionserver.global.memstore.size.lower.limit(默认 0.95) * hbase.regionserver.global.memstore.size(默认0.4) * hbase_heapsize(占用的内存大小) 的时候,将会触发 MemStore 的刷写

WAL文件数大于阈值

设置了 hbase.regionserver.maxlogs,那就是这个参数的值;否则是 max(32, hbase_heapsize * hbase.regionserver.global.memstore.size(默认0.4) * 2 / logRollSize(滚到文件大小))。如果某个 RegionServer 的 WAL 数量大于 maxLogs 就会触发 MemStore 的刷写。

自动刷写 mapreduce原理 yarn任务提交原理 sql调优 hbase读写原理 hbase数据合并(compate) shell spark flink: checkpoint 两阶段提交 背压处理 优化: kafka: 读写原理 数据一致性 broker挂掉恢复过程
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/746434.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号