1)大数据常见业务
2)业界常见解决方案
3)clickhouse简单。适合spark hive已经离线处理好了,离线批量导入。update操作多不合适。
4)clickhouse存储引擎。如何解决ReplacingMergeTree不适合update、数据一致性、高并发查询等问题。采用AggregatingMergeTree
5)ReplacingMergeTree,用insert替换update,但其他不需要更新的列也会被查询,代价高。
AggregatingMergeTree直接insert就可以。聚合函数anylast自动保留每个列最后出现的非null值。通过insert达到update。
6)Insert UID重复,如何保证数据一致性。
1.用distinct更新立即可见;2.OPTIMIZE周期性可见,提高OPTIMIZE效率,用分区并行OPTIMIZE。
7)高并发查询



