栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

ClickHouse为什么快

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

ClickHouse为什么快

大数据量处理的方案

分布式计算列式存储 ClickHouse的性能

数据的查询性能:

        不支持高并发,官方建议qps不超过100。

        单表查询更有优势,不推荐多表联合查询。

每秒可处理1.2GB(亿行)数据,单机支撑40亿以上的数据查询无压力。

数据的写入性能

        建议每次写入不少于1000行的批量写入,或每秒不超过一个写入请求

ClickHouse的特点 列式存储

        同一个文件的数据类型一致,可实现高效压缩。

        宽表查询时,需要处理的处理量可大大减小。

分区存储,查询时可跳过筛选条件外的分区。 数据落盘时,根据排序键将数据顺序写入。 根据主键,生成主键索引,加快检索效率;另外根据需要,还可建立二级索引。

        (ClickHouse的索引均为稀疏索引,所以索引字段的区分度要适中)

并行处理(极限压榨CPU):

        向量引擎:为了高效利用CPU,数据不仅按列存储,同时还按向量(列的一部分)进行处理。

        复杂查询支持多核心并行处理

支持近似计算。 支持副本(高可用)、分片(水平扩容),单机性能已足够,分片特性不一定有用。 检索方式

                             

 稀疏索引

二级索引

minmax:存储指定表达式的极值

set(max_rows):存储指定表达式的不重复值(不超过 max_rows 个,max_rows=0 则表示无限制)

ngrambf_v1(n, size_of_bloom_filter_in_bytes, number_of_hash_functions, random_seed):存储一个包含数据块中所有 n元短语(ngram) 的 布隆过滤器 。只可用在字符串上。可用于优化 equals , like 和 in 表达式的性能。

n – 短语长度。

size_of_bloom_filter_in_bytes – 布隆过滤器大小,字节为单位。(因为压缩得好,可以指定比较大的值,如 256 或 512)。number_of_hash_functions – 布隆过滤器中使用的哈希函数的个数。

random_seed – 哈希函数的随机种子。

tokenbf_v1(size_of_bloom_filter_in_bytes, number_of_hash_functions, random_seed)
跟 ngrambf_v1 类似,但是存储的是token而不是ngrams。Token是由非字母数字的符号分割的序列。

bloom_filter(bloom_filter([false_positive]) – 为指定的列存储布隆过滤器,可选参数false_positive用来指定从布隆过滤器收到错误响应的几率。取值范围是 (0,1),默认值:0.025。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/720394.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号