GBase 8a 数据分布式存储

Gbase 8a的列存和行列混存

数据在磁盘中按照列的方式进行组织和物理存储。面对海量数据分析的磁盘I/O瓶颈，分析型数据库把表数据按列的方式存储，列存储架构对查询、统计和分析类操作具备天然的优势。其优势体现在以下几个方面：

降低I/O

只有访问查询所涉及的列才会产生磁盘I/O，查询中没有涉及的列不需要访问也不产生磁盘I/O。

高压缩比

压缩比可以达到 2 ~ 20 倍。

支持行列混存

Gbase 8a MPP Cluster支持行列混存。对于列存储的集群架构，当操作涉及的列数较多，访问的数据记录非常离散时，会造成大量的离散I/O。行列混存功能通过存储冗余行的信息，提高磁盘 I/O 性能。

分布式存储

Gbase 8a MPP Cluster可处理PB级以上的结构化数据，对于大表数据可采用随机数据存储分布策略模式或哈希数据存储分布策略模式。用户可以按照业务场景的需求，选择合适的数据存储分布策略，从而在性能、可靠性和灵活性间获得最佳平衡方案。

随机数据存储分布策略模式

随机数据存储分布策略模式是指数据库创建随机分布的分布表，在进行数据入库时数据将随机均等的分布到各个数据节点上。

哈希数据存储分布策略模式

哈希数据存储分布策略模式是指在数据入库时对原始数据中的每条数据按指定的哈希分布列进行处理，处理后的数据按照哈希值装入特定的哈希桶中，每个哈希桶对应一个集群数据节点。这样每个节点所得到的数据就都具有了某种共同特征（指定列都具有相同的哈希值），在查询时优化引擎可以根据这些共同特征对查询计划进行优化，以达到缩短查询时间的目的。

虚拟集群

一套虚拟集群中可包含一个或多个VC。每个VC是一个物理集群，各VC由同一套Coordinator Cluster管理，各VC在虚拟集群范围内独立运行，共享统一的入口；每个虚拟集群(VC)由一组Data节点组成，所有虚拟集群由一套Coordinator Cluster控制。每个虚拟集群独立运行互不影响；
虚拟集群技术提供的统一访问入口能够实现对仓库和集群的统一访问。对应用来说，应用对多个物理集群的访问是透明的，访问的就是一个统一的集群，但内部可以根据业务系统把原来的物理集群规划成多个虚拟集群；
权限许可的情况下，各虚拟集群间可以相互访问。

高效压缩

高效透明压缩技术能够按照数据类型和数据分布规律自动选择最优压缩算法，尽可能减少数据所占的存储空间，降低查询的 I/O 消耗，提升查询性能。可以设置实例级、表级、列级压缩选项，灵活平衡性能与压缩比的关系，而且压缩和解压缩过程对用户是透明的；
相较于传统的行存数据库，高效透明压缩技术可以带来约一个数量级的性能提升。

        压缩比可达到2~20倍甚至更优，远远高于行存储；

        节省50%-95%的存储空间，大大降低数据处理能耗；

        内置多种不同等级的压缩算法；

        压缩态下对I/O要求大大降低，数据加载和查询性能明显提升。

智能索引

智能索引是一种粗粒度索引，每65536行数据生成一个数据包，每个数据包在数据入库时自动建立智能索引，包含过滤信息和统计信息，在数据查询时不需要解包就能得到统计值，可进一步降低I/O，对复杂查询的优化效果明显。
        表中的智能索引自动创建，不需用户手工建立和维护；

        智能索引本身占空间很少，扩展性很好，建立智能索引后存储空间几乎无膨胀；

        智能索引建立的速度快，后面的数据包建立智能索引的速度不会受到前面数据包的影响。

与传统数据库索引技术相比，智能索引建立在数据包上（粗粒度索引），并且每个字段均自动建有索引，而传统索引建立在每行数据上（细粒度索引），因此访问智能索引要比访问传统索引需要更少的I/O（几万分之一）。同时，智      能索引所占空间大约是数据的1%，而传统数据库索引则要占到数据的20%~ 50%。

大规模并行计算

Gbase 8a MPP Cluster单节点并行技术

Gbase 8a MPP Cluster 针对数据加载和数据查询实现了自动高效的并行处理技术，充分利用SMP多核CPU资源并行处理海量数据。同时Gbase 8a MPP Cluster 具有智能算法适配功能。例如灵活的 JOIN 处理方式，支持 HASH JOIN、NEST-LOOP JOIN、MERGE JOIN等。针对不同的数据分布及特征，会智能的选择不同算法进行处理。这也充分解决各种行业应用中的JOIN操作带来的性能压力，特别是10个以上的多表JOIN操作。

Gbase 8a MPP Cluster技术的主要特点：
        分布式并行计划器，结合集群特征，对算子进行分布式处理，生成适合的

分布式执行计划；

        通过基于规则和基于代价的优化，保证执行计划的高效；

        调度器采用异步I/O等技术，确保调度的高效和可靠。

GBase 8a 数据分布式存储

大数据系统相关栏目本月热门文章